7K+ 次浏览
要从箱线图中提取统计摘要,我们可以使用带有 delta 运算符的 stats 函数。例如,如果我们有一个名为 df 的数据框,其中包含 5 列,那么可以通过使用命令 boxplot(df) 创建每列的箱线图,如果我们想从该箱线图中提取统计摘要,则可以使用 boxplot(df)$stats。考虑以下数据框 - 示例 实时演示 df
1K+ 次浏览
假设我们有一个包含多个字符串元素的向量,并且我们想找出哪个字符串元素具有特定的子字符串。这可以通过 grep 函数来实现。例如,如果我们有一个名为 x 的向量,其中包含五个字符串元素,每个元素的长度都不同,那么查找哪个元素具有一个子字符串(例如“编程”),可以通过使用命令 grep("programming",x,fixed=TRUE) 来实现 - 示例 实时演示 x1
要在 R 中的字符串向量中以大写字母开头的单词之间添加空格,我们可以使用 gsub 函数。由于字符串向量中可能包含大写字母和小写字母,因此我们需要正确指定这两种类型的字符才能在单词之间创建空格。查看下面的示例以了解其工作原理。示例 实时演示 x1
数据分析中最困难的问题是清理脏数据。大多数情况下,数据以脏的形式提供,其中一种脏乱就是字符串向量在特定字符之后具有不必要的值。因此,要截断字符之后的字符串向量,我们可以使用 stringr 包中的 str_split 以及 sapply 函数,如下面的示例所示。library(stringr) 示例 实时演示 x1
915 次浏览
当 R 数据框中有一个欧元货币列作为响应变量时,我们可能需要在使用 ggplot2 包创建的图中显示欧元符号。为此,我们可以使用 scales 包,并且将使用命令 scale_y_continuous(labels=dollar_format(suffix="€",prefix="")) 更改 Y 轴的刻度。考虑以下数据框 - 示例 实时演示 x
267 次浏览
如果序列以 1 为增量,则意味着对于每个值,值的总数都会增加那么多。例如,值 1 1 2 1 2 3 1 2 3 4 1 2 3 4 5 正在创建从 1 到 5 的值序列。要在 R 中创建此类序列,我们可以简单地使用 sequence 函数并将范围作为 sequence(1:5) 传递。示例 实时演示 x1
211 次浏览
要按升序对大量 csv 文件进行排序,我们可以使用 gtools 包中的 mixedsort 函数。例如,如果我们有一个随机排列在名为 FILES 的向量中的 csv 文件列表,则可以使用命令 mixedsort(sort(FILES)) 按升序对文件进行排序 - 示例 实时演示 Files1
244 次浏览
使用列号可以轻松地对 data.table 对象的一列进行排序,但使用列名进行排序则有所不同。如果列名存储在向量中,并且我们想使用此名称按升序对 data.table 对象的一列进行排序,则将使用 order 函数以及单方括号和双方括号,如下面的示例所示。加载 data.table 包并创建一个 data.table 对象 - 示例 library(data.table) x1
5K+ 次浏览
shapiro 检验用于检验变量的正态性,该检验的零假设是变量服从正态分布。如果 R 数据框中包含数值列,那么我们可能需要检查所有变量的正态性。这可以通过 apply 函数和 shapiro.test 来实现,如下面的示例所示。示例 实时演示 考虑以下数据框 - set.seed(321) x1
有时我们希望提取表值,尤其是在我们有一个大表的情况下。这有助于我们了解表中特定项目的频率。要访问表值,我们可以使用单方括号。例如,如果我们有一个名为 TABLE 的表,则可以使用 TABLE[1] 访问该表的第一个元素。示例 1 实时演示 x1