7000+ 次浏览
要从箱线图中提取统计摘要,我们可以使用带有delta运算符的stats函数。例如,如果我们有一个名为df的数据框,包含5列,那么可以使用命令boxplot(df)创建每列的箱线图,如果我们想从该箱线图中提取统计摘要,则可以使用boxplot(df)$stats。请考虑以下数据框 - 示例 在线演示df
1000+ 次浏览
假设我们有一个包含多个字符串元素的向量,我们想找出哪个字符串元素包含特定的子字符串。这可以使用grep函数来完成。例如,如果我们有一个名为x的向量,包含五个长度不同的字符串元素,那么查找哪个元素包含子字符串“programming”,可以使用命令grep("programming",x,fixed=TRUE) 示例 在线演示x1
要在R的字符串向量中,在以大写字母开头的单词之间添加空格,我们可以使用gsub函数。由于字符串向量中可能同时包含大写字母和小写字母,因此我们需要正确指定这两种类型的字符才能在单词之间创建空格。查看下面的示例以了解其工作原理。示例 在线演示x1
数据分析中最困难的问题是清理脏数据。大多数情况下,数据以脏的形式提供,而其中一种脏数据就是字符串向量在特定字符后具有不必要的值。因此,要截断某个字符后的字符串向量,我们可以使用stringr包中的str_split函数以及sapply函数,如下面的示例所示。library(stringr)示例 在线演示x1
915 次浏览
当我们在R数据框中有一个欧元货币列作为响应变量时,我们可能需要在使用ggplot2包创建的图中显示欧元符号。为此,我们可以使用scales包,并使用命令scale_y_continuous(labels=dollar_format(suffix="€",prefix=""))更改Y轴的比例尺。请考虑以下数据框 - 示例 在线演示x
267 次浏览
如果一个序列递增1,这意味着对于每个值,值的总数都增加这么多。例如,值1 1 2 1 2 3 1 2 3 4 1 2 3 4 5 创建了一个从1到5的值序列。要在R中创建这种类型的序列,我们可以简单地使用sequence函数并将范围作为sequence(1:5)传递。示例 在线演示x1
211 次浏览
要将大量csv文件按升序排序,我们可以使用gtools包中的mixedsort函数。例如,如果我们有一个随机排列在名为FILES的向量中的csv文件列表,则可以使用命令mixedsort(sort(FILES))按升序对文件进行排序。示例 在线演示Files1
244 次浏览
使用列号可以轻松地对data.table对象的列进行排序,但是使用列名进行排序则有所不同。如果列名存储在一个向量中,并且我们想使用此名称按升序对data.table对象的列进行排序,则将使用order函数以及单方括号和双方括号,如下面的示例所示。加载data.table包并创建一个data.table对象 - 示例library(data.table) x1
5000+ 次浏览
Shapiro检验用于检验变量的正态性,该检验的原假设是变量服从正态分布。如果我们在R数据框中具有数值列,那么我们可能需要检查所有变量的正态性。这可以使用apply函数和shapiro.test函数来完成,如下面的示例所示。示例 在线演示请考虑以下数据框 - set.seed(321) x1
有时我们想提取表值,尤其是在我们有一个大表的情况下。这有助于我们了解表中特定项目的频率。要访问表值,我们可以使用单方括号。例如,如果我们有一个名为TABLE的表,则可以使用TABLE[1]访问表的第一个元素。示例1 在线演示x1