935 次浏览
有时需要在数据框中创建重复的行,主要用于扩展数据大小而不是收集原始数据。这节省了我们的时间,但肯定会有偏差,这是不推荐的。即使不推荐,但有时也变得必要,例如,如果无法收集原始数据,那么我们可以这样做。如果我们这样做,则必须在分析报告中说明。在 R 中,我们可以使用 rep 函数与 seq_len 和 nrows 一起创建包含重复行的数据框。示例考虑…阅读更多
404 次浏览
在进行数据分析时,有时需要对分组的最大值进行子集选择,并将此数据框子集用于比较分析。主要目标是将这些最大值彼此之间或与阈值进行比较。在 R 中,我们可以使用 dplyr 包中的 group_by 和 slice 函数查找分组的最大值。示例考虑以下数据框 -> x y df head(df, 20) x y 1 S1 1 2 S1 2 3 S1 3 4 S1 4 5 ... 阅读更多
18K+ 次浏览
当我们错误地指定 X 轴或 Y 轴的值范围时,会出现警告“删除了包含缺失值的 n 行”。我们可以使用 scale_x_continuous(limits=c(?, ?)) (对于 x 轴) 和 scale_y_continuous(limits=c(?, ?)) (对于 y 轴) 在 ggplot 函数中设置此范围。如果范围大于实际数据范围,则不会出现警告,否则,我们将获得关于缺失值数量的警告。示例考虑以下数据框 -> set.seed(2) > x y df library(ggplot2) 创建 Y 轴限制从 0 到 5 的绘图 -> ggplot(df, aes(x, y))+ + geom_point()+ + scale_y_continuous(limits=c(0, 5)) 警告消息:... 阅读更多
268 次浏览
如果散布度很高,那么用平滑线连接散点图上的点非常困难,但是我们可能希望查看通过仅查看点无法理解的平滑度。这也有助于理解模型是否是线性的。我们可以通过使用 plot 函数绘制带有 loess 的模型来实现这一点。示例考虑以下数据 -> set.seed(3) > x y 模型 summary(Model) 调用:loess(formula = y ~ x) 观察次数:10 等效参数数量:4.77 残差标准误差:8.608 平滑矩阵的迹:5.27 (精确) 控制 ... 阅读更多
1K+ 次浏览
均值的标准误差是标准差除以样本大小的平方根。查找均值标准误差最简单的方法是使用公式来查找其值。示例 > set.seed(1) 我们将使用相同的公式为正态随机变量、从 1 到 100 的数字序列、随机样本、二项式随机变量和均匀随机变量查找标准误差。最后,我将确认我们是否对我们在这里考虑的所有类型的变量使用了正确的方法。> x x [1] -0.6264538 0.1836433 -0.8356286 ... 阅读更多
7K+ 次浏览
可以在 R 中借助 solve 函数计算矩阵的逆,大多数不经常使用 R 的人会错误地为此目的使用 inv 函数,但在基础 R 中没有名为 inv 的函数来查找矩阵的逆。示例考虑以下矩阵及其逆 -> M1 M1 M1 [, 1] [, 2] [1, ] 1 3 [2, ] 2 4 > solve(M1) [, 1] [, 2] [1, ] -2 1.5 [2, ] 1 -0.5 > M2 M2 ... 阅读更多
348 次浏览
在研究中,有时我们得到某个因子变量水平的零计数,但我们可能希望将其绘制在条形图中,以便任何查看该图的人都可以轻松理解缺失的内容并比较所有因子水平。在 ggplot2 中,这可以使用 scale_x_discrete 函数完成。> x df df$x df$x [1] S1 S2 S3 S4 S1 S2 S3 S4 S1 S2 S3 S4 S1 S2 S3 S4 S1 S2 S3 S4 水平:S1 S2 S3 S4 S5 加载 ggplot2 包 -> library(ggplot2) 现在当 ... 阅读更多
3K+ 次浏览
有时需要将矩阵数据作为表格保存到文本文件中,原因是文本文件的存储容量。但是,当我们将矩阵作为文本文件保存在 R 中时,列名会错位,因此我们需要处理这些名称,这可以通过将列名设置为所需的值来完成。> M M [, 1] [, 2] [, 3] [, 4] [1, ] 1 5 9 13 [2, ] 2 ... 阅读更多
2K+ 次浏览
由于可视化是数据分析的重要组成部分,我们应该确保以易于用户阅读的形式创建图表。为此,条形图中的刻面有助于我们了解另一个因子的因子变量水平。要创建这种类型的条形图,我们可以使用 ggplot2 包的 facet_grid 函数。示例考虑以下数据框 -> set.seed(99) > y class quantity df library(ggplot2) 创建 X 轴上为 class,Y 轴上为 y 的图表,没有任何刻面 -> ggplot(df, aes(class, y))+ + geom_bar(stat="identity") 输出 创建 X 轴上为 class,Y 轴上为 y 的图表 ... 阅读更多
195 次浏览
在 R 中加载包时,我们会收到一些烦人的消息,除非我们没有加载新包,否则这些消息没有用。由于这些消息看起来像输出,因此它们可能会令人困惑,尤其是在我们分析字符串数据时。因此,我们必须摆脱它们。加载 BSDA 包时的消息示例:>> library(BSDA) 加载所需包 - lattic 附加包 - ‘BSDA’ 以下对象被从 ‘package:datasets’ 中屏蔽 - Orange 在这里,我们在加载 BSDA 包时收到一些消息,但如果我们确定已安装该包,则可能对这些消息不感兴趣 ... 阅读更多