439 次浏览
R数据框包含可能代表相似类型变量的列;因此,我们可能希望找到每列值的总和,并根据总和进行比较。这可以使用sum函数完成,但首先我们需要提取列来求和。示例考虑以下数据框 −> set.seed(1) > x1 x2 x3 x4 x5 x6 x7 df df x1 x2 x3 x4 x5 x6 x7 1 -0.62645381 1.41897737 0.83547640 3.9016178 1.4313313 1.879633 2.494043 2 0.18364332 1.28213630 0.74663832 1.4607600 1.8648214 2.542116 4.343039 3 ... 阅读更多
257 次浏览
大多数情况下,我们得到的数据格式并非我们想要的,因此我们需要根据我们的需要进行更改。当分类变量的水平用单词而不是数字表示时,我们可以将这些水平转换为小写或大写。有时,这样做只是为了使信息看起来更友好。通常,我们发现值是小写的,因此我们可以使用sapply函数将其转换为大写。示例考虑以下数据框 −> x1 x2 x3 df df x1 x2 ... 阅读更多
1K+ 次浏览
如果R数据框包含一个具有许多组级别的组变量,那么根据组级别查找离散或连续变量的最小值和最大值就会变得困难。但是这可以使用dplyr包中的slice函数完成。考虑以下数据框,它包含一个组变量以及连续变量和离散变量 −> set.seed(2) > x1 x2 x3 x4 x5 x6 x7 Group df df x1 x2 x3 x4 x5 x6 x7 Group 1 85 8 14 7 8 2.900301 749 1 2 79 7 12 4 3 3.331022 200 2 ... 阅读更多
2K+ 次浏览
当数据框很大时,我们可以将其随机拆分成多个部分。当我们想要部分分析数据时,这可能是必需的。我们可以使用split函数和sample函数来随机选择值来实现这一点。示例考虑base R中的trees数据 −> str(trees) 'data.frame': 31 obs. of 3 variables: $ Girth : num 8.3 8.6 8.8 10.5 10.7 10.8 11 11 11.1 11.2 ... $ Height: num 70 65 63 72 81 83 66 75 80 75 ... $ Volume: num 10.3 10.3 10.2 16.4 18.8 19.7 15.6 18.2 22.6 19.9 ... 阅读更多
580 次浏览
当我们的数据包含空值时,很难进行分析,我们可能需要将这些空值转换为NA,以便我们可以了解不可用的值的数量。这可以使用单个方括号来完成。示例考虑以下数据框,它包含一些空值 −> x1 x2 x3 df df x1 x2 x3 1 1 2 5 2 2 2 5 3 3 2 4 4 1 2 4 5 2 4 4 6 3 4 4 7 1 4 4 8 2 4 2 9 3 2 10 1 2 11 2 12 3 13 1 4 14 2 4 15 3 4 16 4 17 18 19 2 20 1将空值转换为NA −> df[df == ""] df x1 x2 x3 1 1 2 5 2 2 2 5 3 3 2 4 4 1 2 4 5 2 4 4 6 3 4 4 7 1 4 4 8 2 4 2 9 3 2 10 1 2 11 2 12 3 13 1 4 14 2 4 15 3 4 16 4 17 18 19 2 20 1
609 次浏览
在调查或任何其他数据收集方式中,不可能从所有单位获得所有信息。有时我们得到部分信息,有时什么也没有。因此,我们的数据中可能存在一些完全空白的行,而另一些可能包含部分数据。可以删除空白行,其他空值可以使用有助于处理缺失信息的方法来填充。示例考虑以下数据框,它包含一些缺失的行和一些缺失的值 −> x1 x2 x3 df df x1 x2 x3 1 1 2 5 2 2 2 5 ... 阅读更多
942 次浏览
R中的列选择通常使用列号或其名称与$ delta运算符一起进行。我们也可以使用dplyr包的select和matches函数来选择部分列名字符串或完整名称的列,而无需使用$ delta运算符。示例加载dplyr包 −> library(dplyr)考虑base R中的BOD数据 −> str(BOD) 'data.frame': 6 obs. of 2 variables: $ Time : num 1 2 3 4 5 7 $ demand: num 8.3 10.3 19 16 15.6 19.8 - attr(*, "reference")= chr "A1.4, p. 270"选择BOD的列 ... 阅读更多
509 次浏览
行的比较是数据分析中一个重要的部分,有时我们会比较变量与变量、值与值、案例或行与另一个案例或行,甚至比较一个完整的数据集与另一个数据集。这是为了检查数据值的准确性和一致性,因此我们必须这样做。为此,我们需要选择所需的行列等。为了选择因子变量每个级别的第一行,我们可以使用带有!符号的duplicated函数。示例考虑以下数据框 −> x1 x2 x3 df head(df, 20) x1 ... 阅读更多
190 次浏览
为了检查数据框所有列的趋势,我们需要为所有这些列创建折线图。这些折线图有助于我们了解列中数据点的升降情况。一旦我们了解了趋势,我们就可以尝试找出其背后的原因并采取适当的措施。我们可以使用 `plot.ts` 函数(将数据绘制为时间序列)为每一列绘制折线图。示例考虑以下数据框。> set.seed(1) > x1 x2 x3 x4 x5 x6 df head(df, 20) x1 x2 x3 x4 x5 x6 ... 阅读更多
351 次浏览
在分析项目的數據探索過程中,我們有時需要查找某些值的索引,主要是最小值和最大值的索引,以檢查相应的数据行是否包含一些关键信息,或者我们是否可以忽略它。此外,如果我们不想忽略这些值,则有时会根据数据特征将其转换为其他值。示例> x which(x==min(x)) [1] 1 > which(x==max(x)) [1] 25 > set.seed(2) > x1 x1 [1] 85 79 70 6 32 8 17 93 81 76 41 50 75 65 3 80 96 50 55 [20] 63 8 33 ... 阅读更多