2K+ 次查看
通常,绘图的主标题很短,但我们可能需要写很长的一行作为绘图的主标题。例如,简短的版本可能是“散点图”,而较长的版本可能是“X 和 Y 之间的散点图”。因此,在 R 的 plot 函数中,我们可以使用换行符作为主标题,例如 "Scatterplot between X and Y"。示例 set.seed(123) x
254 次查看
处理缺失值是数据分析的初始步骤之一,也是最困难的步骤之一,因为如果我们没有用适当的方法填充缺失值,那么整个分析的结果可能会变得毫无意义。因此,我们必须非常小心地处理缺失值。大多数情况下,出于学习目的,人们使用平均值来填充缺失值,但可以根据我们的数据特征使用许多其他值。要使用列的平均值填充缺失值,我们可以使用 zoo 包的 na.aggregate 函数。示例 考虑以下数据框 −x1
362 次查看
大多数情况下,自变量和因变量之间的关系不是线性的。因此,我们希望根据我们的经验来转换因变量或自变量。因此,我们也希望绘制这些转换以可视化关系,其中一种转换是取因变量的 log10。要绘制因变量的这种转换,我们可以使用 scale_y_continuous(trans='log10')。示例 考虑以下数据框 −set.seed(10) x
382 次查看
缺失值由 NA 表示,但如果我们将其读取为“NA”,则它将成为因子变量的一个水平。如果我们认为一个向量是数值型的,并且该向量中有一个“NA”,那么它将不是数值型向量。另一方面,如果我们有一个包含 NA 的向量,那么它将是一个数值型向量。示例 x1
4K+ 次查看
回归线的斜率是回归分析中非常重要的部分,通过找到斜率,我们可以得到一个估计值,该值表示因变量预计会增加或减少的值。但是置信区间提供了我们样本量相同的情况下 95% 的时间所期望的斜率值的范围。要找到回归线斜率的 95% 置信区间,我们可以使用带有回归模型对象的 confint 函数。示例 考虑以下数据框 −set.seed(1) x
当我们在 R 中创建一个矩阵时,它的列名没有定义,但我们可以命名它们,或者可能导入一个可能具有列名的矩阵。如果列名没有定义,那么我们只需使用列号来提取列,但如果我们有列名,那么我们可以按名称以及其名称来选择列。示例 1 M1
402 次查看
小提琴图类似于箱线图,但看起来像小提琴,并显示不同类别数据的分布。它显示了不同点处数据值的密度。在 R 中,我们可以借助 ggplot2 包绘制小提琴图,因为它为此目的有一个名为 geom_violin 的函数。示例 考虑以下数据框 −set.seed(1) x
698 次查看
在任何绘图中,垂直线通常用于显示某些阈值,例如所考虑变量的范围。ggplot2 包提供 geom_vline 函数来在绘图上创建垂直线,并且我们有该函数的 linetype 参数,可用于绘制虚线垂直线。示例 考虑以下数据框 −set.seed(9) x
924 次查看
如果向量已排序,则 rank 函数给出向量中值的秩,但顺序与原始向量相同;order 函数给出原始向量中值的索引,但顺序是按升序排序的。rank 函数主要用于处理有序变量时的排序,因此,每当需要值的排序时,我们都应该使用它;另一方面,order 函数经常用于对所有数值进行排序。示例 set.seed(100) x1
R 中有非常多的包,每个包都有不同的目标,因此,这些包中的函数数量足以解决分析中的问题。一个包可能包含十五个函数,另一个包可能包含一百个函数,这完全取决于需要。我们可以使用 lsf.str 函数找到包内的函数,但在知道包内的函数之前,我们需要加载该包。示例 1 library(BSDA) lsf.str("package:BSDA") CIsim : function (samples = 100, n = 30, mu = 0, sigma = 1, conf.level = 0.95, type = "Mean") Combinations : function ... 阅读更多