274 次浏览
如果我们的数据集中存在多个数值变量和分组变量的 NA 值,那么使用 na.rm = FALSE 需要多次执行才能找到每个变量的平均值或任何其他统计量。但是,我们可以使用 dplyr 包的 summarise_all 函数,只需两行代码即可得到所有数值变量的平均值。示例加载 dplyr 包 −> library(dplyr)考虑 base R 中的 ToothGrowth 数据集 −> str(ToothGrowth) 'data.frame': 60 obs. of 3 variables: $ len : num 4.2 11.5 7.3 5.8 ... 阅读更多
144 次浏览
当我们在两个数据框中有一个公共列时,可以使用这些数据框的连接来创建一个更大的数据框。这将帮助我们分析具有许多特征的组合数据集。我们可以使用 dplyr 包的 inner_join 函数来实现。示例考虑以下数据框 −> set.seed(111) > x1 R1 df1 df1 x1 R1 1 1 78 2 2 84 3 3 83 4 4 47 5 5 25 6 1 59 7 2 69 8 3 35 9 4 72 10 5 26 11 1 49 12 2 45 13 3 74 14 4 8 15 5 100 16 1 96 17 2 24 18 3 48 19 4 95 20 5 7 > x1 R2 df2 df2 x1 R2 1 1 21 2 2 15 3 1 1 4 2 9 5 1 63 6 2 40 7 1 25 8 2 35 9 1 71 10 2 52加载 dplyr 包 −> library(dplyr)合并两个数据框 −> inner_join(df2,df1) Joining, by = "x1" x1 R2 R1 1 1 21 78 2 1 21 59 3 1 21 49 4 1 21 96 5 2 15 84 6 2 15 69 7 2 15 45 8 2 15 24 9 1 1 78 10 1 1 59 11 1 1 49 12 1 1 96 13 2 9 84 14 2 9 69 15 2 9 45 16 2 9 24 17 1 63 78 18 1 63 59 19 1 63 49 20 1 63 96 21 2 40 84 22 2 40 69 23 2 40 45 24 2 40 24 25 1 25 78 26 1 25 59 27 1 25 49 28 1 25 96 29 2 35 84 30 2 35 69 31 2 35 45 32 2 35 24 33 1 71 78 34 1 71 59 35 1 71 49 36 1 71 96 37 2 52 84 38 2 52 69 39 2 52 45 40 2 52 24
1K+ 次浏览
有时变量的数据类型不正确,因子变量被读取为数值变量的情况很常见,尤其是在因子水平由数字表示的情况下。如果我们不更改因子变量的数据类型,则分析结果将不正确。因此,如果因子变量的数据类型与因子不同,则必须将其转换为因子数据类型。要将多个变量转换为因子类型,我们可以创建一个包含所有因子变量名称的向量,然后使用 ... 阅读更多
4K+ 次浏览
空矩阵的创建方式与在 R 中创建常规矩阵的方式相同,但我们不会在矩阵函数中提供任何值。行数和列数可以不同,我们不需要在创建空矩阵时使用 byrow 或 bycol 参数,因为由于所有值都缺失,所以它没有用。在 R 中,默认情况下会为矩阵创建一个列,因此,要创建一个没有列的矩阵,我们可以使用 ncol = 0。示例> M1 M1 [, 1] [1, ] NA [2, ] NA ... 阅读更多
417 次浏览
当我们创建箱线图时,它会显示最小值、最大值、第一四分位数、中位数和第三四分位数,但我们可能也希望绘制平均值,以便也可以根据平均值进行因子水平之间的比较。要创建这种类型的图,我们首先需要找到按组的平均值,然后将其与 ggplot2 的 geom_text 函数一起使用。示例考虑 base R 中的 CO2 数据 −> head(CO2, 20) Plant Type Treatment conc uptake 1 Qn1 Quebec nonchilled 95 16.0 2 Qn1 Quebec nonchilled 175 30.4 3 Qn1 Quebec nonchilled 250 34.8 ... 阅读更多
242 次浏览
图例帮助我们在创建散点图时区分响应变量的值。通过这种方式,我们可以了解因子变量的一个水平如何影响响应变量。图例最好放在左下角、右上角、左上角和右下角。我们可以使用 theme 函数来定位图例。示例考虑以下数据框 −> set.seed(99) > x1 x2 F df library(ggplot2)创建具有不同图例位置的图 −考虑以下数据框 −> ggplot(df, aes(x=x1, y=x2, colour=F)) + geom_point(aes(colour=F)) + + theme(legend.justification = c(1, 0), legend.position = c(1, 0))输出> ggplot(df, aes(x=x1, ... 阅读更多
在数据分析中,我们经常处理因子变量,这些因子变量具有不同的水平。有时,我们希望为特定因子水平创建 R 数据框的子集,以便仅针对因子变量的特定水平分析数据。这可以通过使用 subset 函数轻松完成。示例考虑以下数据框 −> set.seed(99) > Factor Percentage df df Factor Percentage 1 India 48 2 China 33 3 USA 44 4 UK 22 5 Canada 62 6 India 32 7 China 13 8 ... 阅读更多
11K+ 次浏览
要将向量转换为矩阵,只需使用 matrix 函数即可。如果需要,我们还可以定义行数和列数,但是如果向量中的值不是行数或列数的倍数,则 R 将抛出错误,因为不可能为此向量创建矩阵。在这里,我们将按名称读取向量以简化操作,但如果需要,您可以更改其名称。这些示例中显示了四个不同长度的向量 −示例 > Vector1 Vector1 [1] ... 阅读更多
308 次浏览
堆叠条形图由一个条形图中的多个条形组成,它显示了分类变量及其水平的一个类别。大多数情况下,堆叠条形图是用每个类别中水平的计数创建的,但是如果我们想用分类变量各个类别的百分比来创建它,也可以做到。我们可以使用prop.table函数创建每个类别的水平比例,然后创建条形图。示例考虑以下数据框-> set.seed(99) > x1 x2 x3 df df x1 x2 x3 1 48 98 68 2 33 ... 阅读更多
394 次浏览
滞后变量是一种变量类型,它包含我们想要为其创建滞后变量的变量的先前值,而第一个值被忽略。因此,如果我们正在创建依赖于分组变量或因子变量的滞后变量,那么在每个组中都将始终缺少一个值。示例考虑以下数据框:> set.seed(2) > Factor Rate df df Factor Rate 1 F1 12 2 F1 54 3 F1 18 4 F1 26 5 F1 14 6 F2 25 7 F2 81 8 F2 47 9 F2 15 10 F2 ... 阅读更多