2K+ 次浏览
如果你的 csv 文件在 Github 上,那么可以使用它的 URL 直接在 R 中导入,但请确保你点击了 Github 页面上数据存储位置的“原始数据”选项。许多人没有点击“原始数据”选项,因此他们读取的是 HTML 而不是 CSV,从而感到困惑。这里,我分享了一个公共数据集,其中包含数据集列表。此数据集有 12 个变量。现在让我们导入它 −> 数据 str(Data) 'data.frame': 57 obs. of 12 variables: $ Dataset.Name : Factor w/ 57 levels " ", "2008 Election ... 阅读更多
1K+ 次浏览
如果存在一个频率与其他频率显著不同的类别,那么使用 ggplot2 的条形图的 X 轴标签会自动排序以交替显示值。我们可能希望保留分类变量中可用的原始类别序列。因此,我们可以将分类变量存储为因子,然后创建条形图。示例考虑以下数据框 −> Group Frequency df df Group Frequency 1 India 12 2 USA 18 3 UK 35 4 Germany 20 > ... 阅读更多
创建包含日期的向量并非易事,但在 R 中借助 seq 和 as.Date,它变得很容易。借助这些函数,我们可以在 R 中创建一个包含两个日期之间日期的向量。但这不能以相反的顺序进行,例如,如果我们希望将未来日期作为向量的第一个元素,那么这是不可能的。示例> V1 V1 [1] "2020-01-01" "2020-01-02" "2020-01-03" "2020-01-04" "2020-01-05" [6] "2020-01-06" "2020-01-07" "2020-01-08" "2020-01-09" "2020-01-10" [11] "2020-01-11" "2020-01-12" "2020-01-13" "2020-01-14" "2020-01-15" [16] "2020-01-16" "2020-01-17" "2020-01-18" "2020-01-19" "2020-01-20" [21] "2020-01-21" "2020-01-22" "2020-01-23" ... 阅读更多
405 次浏览
我们可能希望提取行索引,而不管其类型(数字或字符串)如何,如果它被错误地设置为行索引,则可以进行一些计算。这发生在数据收集过程或数据处理不正确的情况下。此外,由于行索引有助于访问行,因此我们必须为其提供正确的名称,而不是可能导致混淆的值。例如,如果数据框的行索引为 43、94 等,则可能会令人困惑。因此,如果需要,我们应该将行索引转换为向量或列。示例考虑以下数据框(此处,... 阅读更多
239 次浏览
散点图用于观察两个连续变量之间的关系。如果样本量很大,则图上的点彼此重叠,看起来不美观。此外,这种类型的散点图的解释并非易事,因此,我们可以增加图上点的透明度,使其更美观。我们可以使用 ggplot2 的 geom_point 中的 alpha 参数来实现这一点。示例考虑以下数据框 −> set.seed(123) > x y df library(ggplot2) > ggplot(df, aes(x, y))+geom_point()输出> ggplot(df, aes(x, y))+geom_point(alpha=0.10)输出> ggplot(df, aes(x, y))+geom_point(alpha=0.05)输出阅读更多
274 次浏览
如果我们的数据集中对于具有分组变量的多个数值变量存在 NA,则需要多次使用 na.rm = FALSE 来查找每个变量的均值或任何其他统计量以及均值函数。但是,我们可以使用 dplyr 包的 summarise_all 函数来实现,它只需两行代码即可得出所有数值变量的均值。示例加载 dplyr 包 −> library(dplyr)考虑 base R 中的 ToothGrowth 数据集 −> str(ToothGrowth) 'data.frame': 60 obs. of 3 variables: $ len : num 4.2 11.5 7.3 5.8 ... 阅读更多
144 次浏览
当我们在两个数据框中有一个公共列时,可以使用这些数据框的连接来创建一个更大的数据框。这将帮助我们分析具有许多特征的组合数据集。我们可以使用 dplyr 包的 inner_join 函数来实现。示例考虑以下数据框 −> set.seed(111) > x1 R1 df1 df1 x1 R1 1 1 78 2 2 84 3 3 83 4 4 47 5 5 25 6 1 59 7 2 69 8 3 35 9 4 72 10 5 26 11 1 49 12 2 45 13 3 74 14 4 8 15 5 100 16 1 96 17 2 24 18 3 48 19 4 95 20 5 7 > x1 R2 df2 df2 x1 R2 1 1 21 2 2 15 3 1 1 4 2 9 5 1 63 6 2 40 7 1 25 8 2 35 9 1 71 10 2 52加载 dplyr 包 −> library(dplyr)合并两个数据框 −> inner_join(df2,df1) 连接,by = "x1" x1 R2 R1 1 1 21 78 2 1 21 59 3 1 21 49 4 1 21 96 5 2 15 84 6 2 15 69 7 2 15 45 8 2 15 24 9 1 1 78 10 1 1 59 11 1 1 49 12 1 1 96 13 2 9 84 14 2 9 69 15 2 9 45 16 2 9 24 17 1 63 78 18 1 63 59 19 1 63 49 20 1 63 96 21 2 40 84 22 2 40 69 23 2 40 45 24 2 40 24 25 1 25 78 26 1 25 59 27 1 25 49 28 1 25 96 29 2 35 84 30 2 35 69 31 2 35 45 32 2 35 24 33 1 71 78 34 1 71 59 35 1 71 49 36 1 71 96 37 2 52 84 38 2 52 69 39 2 52 45 40 2 52 24
有时变量的数据类型不正确,并且因子变量被读取为数值变量是很常见的,尤其是在因子水平由数字表示的情况下。如果我们不更改因子变量的数据类型,则分析结果将不正确。因此,如果因子变量的数据类型与因子不同,则必须将其转换为因子数据类型。要将多个变量转换为因子类型,我们可以创建一个包含所有因子变量名称的向量,然后使用 ... 阅读更多
4K+ 次浏览
在R中创建空矩阵的方法与创建普通矩阵的方法相同,只是我们不会在矩阵函数内提供任何值。行数和列数可以不同,并且在创建空矩阵时不需要使用`byrow`或`bycol`参数,因为所有值都缺失,所以这些参数没有用。在R中,默认情况下会创建一个列矩阵,因此,要创建一个没有列的矩阵,可以使用`ncol = 0`。示例:M1 M1 [, 1] [1, ] NA [2, ] NA ... 阅读更多
浏览量:417
当我们创建箱线图时,它会显示最小值、最大值、第一四分位数、中位数和第三四分位数,但我们可能也希望绘制均值,以便也可以基于均值比较因子水平。要创建这种类型的图,我们首先需要找到按组的均值,然后可以将其与ggplot2的`geom_text`函数一起使用。示例考虑R基础包中的CO2数据:head(CO2, 20) Plant Type Treatment conc uptake 1 Qn1 Quebec nonchilled 95 16.0 2 Qn1 Quebec nonchilled 175 30.4 3 Qn1 Quebec nonchilled 250 34.8 ... 阅读更多