935 次浏览
有时需要在数据框中重复行,主要用于扩展数据大小,而不是收集原始数据。这节省了我们的时间,但肯定会有偏差,这是不推荐的。即使不推荐,但有时也变得必要,例如,如果无法收集原始数据,那么我们可以这样做。如果我们这样做,那么我们必须在我们的分析报告中说明这一点。在 R 中,我们可以使用 rep 函数与 seq_len 和 nrows 一起创建具有重复行的数据框。示例考虑 ... 阅读更多
404 次浏览
在进行数据分析时,有时需要对分组的最大值进行子集化,并且此数据框的子集用于比较分析。主要目标是将这些最大值彼此之间或与阈值进行比较。在 R 中,我们可以使用 dplyr 包中的 group_by 和 slice 函数找到分组的最大值。示例考虑以下数据框 -> x y df head(df, 20) x y 1 S1 1 2 S1 2 3 S1 3 4 S1 4 5 ... 阅读更多
18K+ 次浏览
当我们错误地指定 X 轴或 Y 轴的值范围时,会出现警告“删除了包含缺失值的 n 行”。我们可以在 ggplot 函数中使用 scale_x_continuous(limits=c(?, ?)) 为 x 轴和 scale_y_continuous(limits=c(?, ?)) 为 y 轴指定此范围。如果范围大于实际数据范围,则不会有任何警告,否则,我们将收到有关缺失值数量的警告。示例考虑以下数据框 -> set.seed(2) > x y df library(ggplot2)创建 Y 轴限制范围为 0 到 5 的绘图 -> ggplot(df, aes(x, y))+ + geom_point()+ + scale_y_continuous(limits=c(0, 5)) 警告消息: ... 阅读更多
268 次浏览
如果散布度很高,那么用平滑线连接散点图上的点非常困难,但我们可能希望查看无法仅通过查看点来理解的平滑度。它还有助于了解模型是否是线性的。我们可以通过使用 plot 函数绘制带有 loess 的模型来做到这一点。示例考虑以下数据 -> set.seed(3) > x y 模型摘要(模型)调用:loess(公式 = y ~ x)观察次数:10参数等价数:4.77残差标准误差:8.608平滑矩阵的迹:5.27(精确)控制 ... 阅读更多
1K+ 次浏览
均值的标准误差是标准差除以样本大小的平方根。找到均值标准误差的最简单方法是使用公式找到其值。示例> set.seed(1)我们将使用相同的公式找到正态随机变量、从 1 到 100 的数字序列、随机样本、二项式随机变量和均匀随机变量的标准误差。最后,我将确认我们是否对这里考虑的所有类型的变量都使用了正确的方法。> x x [1] -0.6264538 0.1836433 -0.8356286 ... 阅读更多
7K+ 次浏览
可以在 R 中借助 solve 函数计算矩阵的逆,大多数不经常使用 R 的人会错误地为此目的使用 inv 函数,但在基础 R 中没有名为 inv 的函数来查找矩阵的逆。示例考虑以下矩阵及其逆 -> M1 M1 M1 [, 1] [, 2] [1, ] 1 3 [2, ] 2 4 > solve(M1) [, 1] [, 2] [1, ] -2 1.5 [2, ] 1 -0.5 > M2 M2 ... 阅读更多
348 次浏览
在研究中,有时我们得到因子变量特定水平的零计数,但我们可能希望在条形图中绘制它,以便任何查看该图的人都可以轻松了解缺少什么并比较所有因子水平。在 ggplot2 中,这可以通过 scale_x_discrete 函数来完成。> x df df$x df$x [1] S1 S2 S3 S4 S1 S2 S3 S4 S1 S2 S3 S4 S1 S2 S3 S4 S1 S2 S3 S4 水平:S1 S2 S3 S4 S5加载 ggplot2 包 -> library(ggplot2)现在,当 ... 阅读更多
3K+ 次浏览
有时需要将矩阵数据作为表保存到文本文件中,原因是文本文件的存储容量。但是,当我们在 R 中将矩阵保存为文本文件时,列名称会错位,因此我们需要处理这些名称,这可以通过将列名称设置为所需值来完成。> M M [, 1] [, 2] [, 3] [, 4] [1, ] 1 5 9 13 [2, ] 2 ... 阅读更多
2K+ 次浏览
由于可视化是数据分析的重要组成部分,因此我们应该确保以易于用户阅读的形式创建绘图。为此,条形图中的分面有助于我们了解另一个因子的因子变量水平。要创建此类条形图,我们可以使用 ggplot2 包的 facet_grid 函数。示例考虑以下数据框 -> set.seed(99) > y class quantity df library(ggplot2)创建 X 轴为 class、Y 轴为 y 且没有任何分面的绘图 -> ggplot(df, aes(class, y))+ + geom_bar(stat="identity")输出创建 X 轴为 class、Y 轴为 y 且分面为 quantity 的绘图 ... 阅读更多
195 次浏览
在 R 中加载包时,我们会收到一些烦人的消息,除非我们没有加载新包,否则这些消息没有用。由于这些消息看起来像输出,因此它们可能会令人困惑,尤其是在我们分析字符串数据时。因此,我们必须摆脱它们。加载 BSDA 包时的消息示例:>> library(BSDA)加载所需的包 - lattic附加包 - 'BSDA'以下对象被从'package:datasets'中屏蔽 -Orange在这里,我们在加载 BSDA 包时收到了一些消息,但如果我们确定已安装该包,则可能对这些消息不感兴趣 ... 阅读更多