84 次查看
为了在基础 R 中根据均值创建箱线图,我们首先需要根据数值列的均值对分类列进行排序,然后创建箱线图。例如,如果我们有一个包含分类列 x 和数值列 y 的数据框 df,那么可以使用 df$x 创建按均值排序的箱线图
339 次查看
数据框可能非常长,并且包含仅包含字符串值的列以及数值值。在进行分析时,我们可能希望检查哪些列包含特定的字符串值。例如,如果我们有一列字符串值为 A、B 和 C,并且我们想要检查哪个列包含值“A”,那么可以使用 apply 函数,如下面的示例所示。示例考虑以下数据框 - 实时演示 x1
954 次查看
如果我们在 R 数据框中具有两个分类列以及一个数值列,那么我们可以使用 aggregate 函数结合分类列的组合来查找数值列的均值。例如,如果数据框 df 包含数值列 X 和两个分类列 C1 和 C2,那么可以使用以下命令查找 X 的均值,以获得 C1 和 C2 的组合 - aggregate(X~C1+C2,data=df,FUN="mean")示例考虑以下数据框 - C1
873 次查看
如果我们想要在基础 R 中向模型添加变量,则可以使用 update 函数。update 函数将通过添加新变量来更新以前的模型,这个变量可以是单个变量,也可以是两个或多个变量的交互作用,还可以是现有变量的任何可能的转换。示例考虑以下数据框 - 实时演示 x1
1K+ 次查看
所有值的 95% 的范围实际上代表中间 95% 的值。因此,我们可以找到第 2.5 个百分位数和第 97.5 个百分位数,以便获得中间 95% 的范围。为此,我们可以在 R 中使用 quantile 函数。要查找第 2.5 个百分位数,我们需要使用概率 = 0.025,对于第 97.5 个百分位数,我们可以使用概率 = 0.0975。示例 实时演示 x1
85 次查看
有时序列中缺少值,R 程序将其记录为 NA(不可用)。在这种情况下,我们可能希望用单个 NA 值替换连续的 NA 记录。这可以通过使用 is.na 以及 diff 函数来完成,如下面的示例所示。示例 实时演示 x1
2K+ 次查看
为了在基础 R 中创建并排直方图,我们首先需要使用 hist 函数创建一个直方图,并使用 xlim 参数定义 X 轴的较大限制。之后,我们可以创建另一个具有较大均值和较小标准差的直方图,以便条形图不会相互冲突,并且必须在第二个 hist 函数中添加 add=T 参数。示例 实时演示 hist(rnorm(5000,mean=5,sd=2.1),col="green",xlim=c(1,20))输出示例 hist(rnorm(5000,mean=15,sd=1.25),col="red",add=T)输出
378 次查看
我们可以使用 duplicated 函数轻松识别矩阵中的重复值,但它没有指定第一次出现的重复值也是重复的。因此,我们需要将其与 OR 符号 | 和 duplicated 函数的 argument fromLast = TRUE 一起使用,以便第一次出现的重复值也将被识别为重复值。示例 实时演示 M1
7K+ 次查看
有时分析需要用户检查 R 数据框的两列中的值是否完全相同,这有助于分析非常大的数据框,如果我们怀疑两列中的比较值。这可以使用 ifelse 函数轻松完成。示例考虑以下数据框 - 实时演示 x1
262 次查看
为了使用 ggplot2 创建截距为 0 且斜率等于 1 的回归线,我们可以使用 geom_abline 函数,但我们需要为 x 轴和 y 轴值传递合适的限制。例如,如果我们在数据框 df 中有两列 x 和 y,并且两者的范围都从 -1 到 1 开始,那么可以创建具有截距为 0 且斜率等于 1 的回归线的散点图,如下所示 - ggplot(df,aes(x,y))+geom_point()+geom_abline()+lims(x=c(-1,1),y=c(-1,1))示例考虑以下数据框 - 实时演示 x