439 次浏览
R 数据框包含可能表示相似类型变量的列;因此,我们可能希望查找每列值的总和,并根据总和进行比较。这可以通过 sum 函数的帮助来完成,但首先我们需要提取列以查找总和。示例考虑以下数据框 -> set.seed(1) > x1 x2 x3 x4 x5 x6 x7 df df x1 x2 x3 x4 x5 x6 x7 1 -0.62645381 1.41897737 0.83547640 3.9016178 1.4313313 1.879633 2.494043 2 0.18364332 1.28213630 0.74663832 1.4607600 1.8648214 2.542116 4.343039 3 ... 阅读更多
257 次浏览
大多数情况下,我们获得的数据格式并非我们想要的,因此我们需要根据我们的需要进行更改。当分类变量的水平用单词而不是数字表示时,我们可以将这些水平转换为小写或大写。有时,这样做只是为了使信息看起来更友好。大多数情况下,我们发现值是小写的,因此我们可以使用 sapply 函数将其转换为大写。示例考虑以下数据框 -> x1 x2 x3 df df x1 x2 ... 阅读更多
1K+ 次浏览
如果 R 数据框包含一个具有多个组级别的组变量,那么根据组级别查找离散或连续变量的最小值和最大值就会变得困难。但这可以通过 dplyr 包中的 slice 函数来完成。考虑以下数据框,它有一个组变量以及连续变量和离散变量 -> set.seed(2) > x1 x2 x3 x4 x5 x6 x7 Group df df x1 x2 x3 x4 x5 x6 x7 Group 1 85 8 14 7 8 2.900301 749 1 2 79 7 12 4 3 3.331022 200 2 ... 阅读更多
2K+ 次浏览
当数据框很大时,我们可以将其随机拆分为多个部分。当我们想要部分分析数据时,这可能是必需的。我们可以借助 split 函数和 sample 函数来随机选择值。示例考虑 base R 中的 trees 数据 -> str(trees) 'data.frame': 31 obs. of 3 variables: $ Girth : num 8.3 8.6 8.8 10.5 10.7 10.8 11 11 11.1 11.2 ... $ Height: num 70 65 63 72 81 83 66 75 80 75 ... $ Volume: num 10.3 10.3 10.2 16.4 18.8 19.7 15.6 18.2 22.6 19.9 ... 阅读更多
580 次浏览
当我们的数据包含空值时,很难执行分析,我们可能需要将这些空值转换为 NA,以便我们可以了解不可用的值的数量。这可以通过使用单个方括号来完成。示例考虑以下数据框,它包含一些空值 -> x1 x2 x3 df df x1 x2 x3 1 1 2 5 2 2 2 5 3 3 2 4 4 1 2 4 5 2 4 4 6 3 4 4 7 1 4 4 8 2 4 2 9 3 2 10 1 2 11 2 12 3 13 1 4 14 2 4 15 3 4 16 4 17 18 19 2 20 1将空值转换为 NA -> df[df == ""] df x1 x2 x3 1 1 2 5 2 2 2 5 3 3 2 4 4 1 2 4 5 2 4 4 6 3 4 4 7 1 4 4 8 2 4 2 9 3 2 10 1 2 11 2 12 3 13 1 4 14 2 4 15 3 4 16 4 17 18 19 2 20 1
609 次浏览
在调查或任何其他数据收集媒介中,不可能从所有单位获取所有信息。有时我们获得部分信息,有时什么也获取不到。因此,我们的数据中可能存在一些完全空白的行,而有些可能包含部分数据。可以删除空白行,并可以使用有助于处理缺失信息的方法填充其他空值。示例考虑以下数据框,它包含一些缺失的行和一些缺失值 -> x1 x2 x3 df df x1 x2 x3 1 1 2 5 2 2 2 5 ... 阅读更多
942 次浏览
R 中的列选择通常使用列号或其名称与 $ delta 运算符一起完成。我们还可以选择其部分名称字符串或完整名称的列,而无需使用 $ delta 运算符。这可以通过 dplyr 包的 select 和 matches 函数来完成。示例加载 dplyr 包 -> library(dplyr)考虑 base R 中的 BOD 数据 -> str(BOD) 'data.frame': 6 obs. of 2 variables: $ Time : num 1 2 3 4 5 7 $ demand: num 8.3 10.3 19 16 15.6 19.8 - attr(*, "reference")= chr "A1.4, p. 270"选择 BOD 的列 ... 阅读更多
509 次浏览
行的比较是数据分析中一个有影响力的部分,有时我们将变量与变量、值与值、案例或行与另一个案例或行甚至一个完整的数据集与另一个数据集进行比较。这是为了检查数据值的准确性和一致性,因此我们必须这样做。为此,我们需要选择所需的行列等。要为因子变量的每个级别选择第一行,我们可以使用带有 ! 符号的 duplicated 函数。示例考虑以下数据框 -> x1 x2 x3 df head(df, 20) x1 ... 阅读更多
190 次浏览
要检查数据框所有列的趋势,我们需要为所有这些列创建折线图。这些折线图有助于我们了解列的数据点如何下降或上升。一旦我们了解了趋势,我们就可以尝试找出其背后的原因并采取适当的措施。我们可以使用 plot.ts 函数为每列绘制折线图,该函数将数据绘制为时间序列。示例考虑以下数据框。> set.seed(1) > x1 x2 x3 x4 x5 x6 df head(df, 20) x1 x2 x3 x4 x5 x6 ... 阅读更多
351 次浏览
在分析项目中进行数据探索时,我们有时需要查找某些值的索引,主要是最小值和最大值的索引,以检查相应的数据行是否包含一些关键信息,或者我们可能会忽略它。此外,如果我们不想忽略这些值,则有时会根据数据特征将其转换为其他值。示例> x which(x==min(x)) [1] 1 > which(x==max(x)) [1] 25 > set.seed(2) > x1 x1 [1] 85 79 70 6 32 8 17 93 81 76 41 50 75 65 3 80 96 50 55 [20] 63 8 33 ... 阅读更多