66 次浏览
如果我们有数字,我们可能希望将这些数字转换为文字。例如,将 1 转换为 one。这可能需要在文本数据中包含数字的情况。因此,最好以文本形式表示数字,以使文本保持一致性。这可以通过使用 qdap 包中的 replace_number 函数来完成。安装和加载 qdap 包:install.packages("qdap") library("qdap") 示例 replace_number("1") [1] "one" replace_number("10") [1] "ten" replace_number("100") [1] "one hundred" replace_number("1000") [1] "one thousand" replace_number("1001") [1] "one thousand one" replace_number("12000") [1] "twelve thousand" replace_number("12214") [1] "twelve thousand two hundred ... 阅读更多
768 次浏览
处理 NA 值是分析师日常工作中一项枯燥的任务,因此我们需要用适当的值替换它。如果在 R 数据框中,我们有一个布尔列表示 TRUE 和 FALSE 值,并且我们只有 FALSE 值,那么我们可能希望将 NA 替换为 TRUE。在这种情况下,我们可以使用单方括号和 is.na 将所有 NA 设置为 TRUE。示例 set.seed(999) 序号。
730 次浏览
有时我们会有缺失值,可以用上面一行的值来替换,这通常发生在手动记录数据的情况下,负责记录数据的人只提及唯一的值,因为他或她了解数据的特性。但是,如果其他人需要重新使用此数据,那么这样做就没有意义了,我们必须联系相关人员。如果相关人员告诉我们每一行中的第一个值可以用于同一列中的每个 NA,那么它可以是 ... 阅读更多
2K+ 次浏览
平均值是需要用直方图表示的数据的重要特征,因此,人们可能希望将其与直方图一起绘制。如果直方图是使用 hist 函数创建的,那么我们可以借助 abline 函数在直方图上创建一条垂直线,为此垂直参数 v 定义数据的平均值。示例 set.seed(101) x
1K+ 次浏览
就像数值向量一样,如果存在,我们可以找到两个字符串向量之间的不同元素。为此,我们可以使用 setdiff 函数。例如,如果我们有一个包含 a、b、c、d、e、f 的向量 V1,以及另一个包含 a、e、h、k、l、p、r、u、v、w 的向量 V2,那么这两个向量之间的不同元素可以找到为 setdiff(V1,V2)。示例 现场演示 x1
535 次浏览
在每次考虑两个值的总和的情况下找到连续值的总和意味着前两个值的总和,然后是第二个值和第三个值的总和,然后是第三个值和第四个值的总和,然后是第四个值和第五个值的总和,依此类推。为此,我们可以使用 zoo 包中的 rollapply 函数。加载 zoo 包 library(zoo) 示例 现场演示 x1
3K+ 次浏览
要使用 ggplot2 包创建水平条形图,我们需要使用 coord_flip() 函数以及 geom_bar,并使用 geom_text 函数添加标签。ggplot2 的这两个函数提供了足够的审美特性来创建水平条形图并将标签放在条形图的内端。示例 现场演示 x
301 次浏览
我们可以使用 combinat 包中的 permn 函数来查找排列,但是如果向量中包含重复元素,则结果将没有唯一的排列,因此我们需要将 unique 函数与 permn 函数一起使用。例如,如果我们有一个向量 1、2、1,则排列将是 (1 2 1)、(1 1 2)、(1 1 2)、(1 2 1)、(2 1 1)、(2 1 1),唯一的排列将是 (1 2 1)、(1 1 2)、(2 1 1)。示例 现场演示 x1
145 次浏览
图例帮助我们区分数据集中值的类型或任何其他值的划分。这些图例可以用多种方式表示,其中两种方式是直线和星号。要在使用 plot 函数创建的图中用彩色直线或星号表示图例,我们需要校正 lty 和 pch 参数。示例 考虑以下向量:set.seed(199) x
频率多边形是值的图形,用于理解值的分布形状。它们对于比较不同的数据集和可视化数据集的累积频率分布很有用。在基础 R 中,我们可以使用 polygon 函数创建频率多边形,但首先我们应该为正在考虑的两个变量创建一个线图。示例 考虑以下向量 x 和 y:set.seed(999) x