1K+ 次浏览
箱线图显示最小值、第一四分位数、中位数、第三四分位数和最大值。当我们使用 ggplot2 创建箱线图时,它会显示没有最小值和最大值水平线的箱线图,如果我们想创建水平线,我们可以使用 ggplot2 的 ggplot 函数中的 stat_boxplot(geom= 'errorbar')。示例考虑以下数据框 - set.seed(101) 性别
604 次浏览
散点图是一个将一个因变量绘制在 Y 轴上,一个自变量绘制在 X 轴上的图。有时,因变量和自变量对根据某些特征进行分组,因此,我们可能希望根据特征创建具有不同组颜色的散点图。为此,我们可以在 ggplot 函数中使用 color 参数。示例考虑以下数据框 - set.seed(123) x
969 次浏览
条形图的条形通常从下到上垂直排列,但我们也可以反转它们。虽然这不是常规做法,但如果需要,我们可以这样做。为此,我们必须反转 Y 轴上的值,这样条形就会反转。可以使用 scale_y_continuous 来实现。示例考虑以下数据框 - 薪资等级
789 次浏览
一个列表可以包含许多元素,并且每个元素可以是不同类型,但如果它们是数字,则可以对它们执行一些数学运算,例如加法、乘法、减法、除法等。为此,我们可以使用 Reduce 函数,通过提及数学运算和列表名称作为 Reduce(“Mathematical_Operation”, List_name)。示例 x1
2K+ 次浏览
大多数情况下,绘图的主标题很短,但我们可能需要为绘图的主标题写很长的一行。例如,简短版本可能是“散点图”,较长版本可能是“X 和 Y 之间的散点图”。因此,在 R 的 plot 函数中,我们可以使用换行符作为主标题,例如 "X 和 Y 之间的散点图"。示例 set.seed(123) x
254 次浏览
处理缺失值是数据分析的初始步骤之一,也是最困难的步骤之一,因为如果我们没有用适当的方法填充缺失值,则整个分析的结果可能会变得毫无意义。因此,我们必须非常小心地处理缺失值。大多数情况下,为了学习目的,人们使用平均值来填充缺失值,但可以使用许多其他值,具体取决于我们的数据特征。为了用列的平均值填充缺失值,我们可以使用 zoo 包的 na.aggregate 函数。示例考虑以下数据框 - x1
362 次浏览
大多数情况下,自变量和因变量之间的关系不是线性的。因此,我们想根据我们的经验转换因变量或自变量。因此,我们还想绘制这些变换以可视化关系,其中一种变换是取因变量的 log10。为了绘制因变量的这种变换,我们可以使用 scale_y_continuous(trans='log10')。示例考虑以下数据框 - set.seed(10) x
382 次浏览
缺失值用 NA 表示,但如果我们将其读取为“NA”,则它成为因子变量的一个水平。如果我们认为一个向量是数值型的,并且该向量中有一个“NA”,则它不会是数值型向量。另一方面,如果我们有一个包含 NA 的向量,则它将是一个数值型向量。示例 x1
4K+ 次浏览
回归线的斜率是回归分析中非常重要的一部分,通过找到斜率,我们可以得到因变量预期增加或减少的值的估计值。但是置信区间提供了我们预期在样本量相同的情况下 95% 的时间的斜率值的范围。为了找到回归线斜率的 95% 置信区间,我们可以使用带有回归模型对象的 confint 函数。示例考虑以下数据框 - set.seed(1) x
当我们在 R 中创建矩阵时,它的列名没有定义,但我们可以命名它们,或者可能导入一个可能具有列名的矩阵。如果列名未定义,则我们只需使用列号来提取列,但如果我们有列名,则我们可以按名称以及其名称选择列。示例 1 M1