1K+ 次浏览
如果变量是数值型的,则可以通过定义下限和上限将其转换为分类变量。例如,年龄从 21 岁到 25 岁可以转换为一个类别,例如 21-25。要将 R 数据框列转换为分类变量,可以使用 cut 函数。示例 1 实时演示考虑以下数据框:
642 次浏览
有时字符串向量在末尾或开头包含不必要的字符,或者字符串本身有意义但不需要,或者存在拼写错误。在这种情况下,我们需要删除不必要的字符。这可以使用 gsub 函数来完成。示例 1 实时演示x1
9K+ 次浏览
要删除字符串中的第一个和最后一个字符,可以使用 stringr 包的 str_sub 函数。例如,如果一个单词,比如 tutorialspoint,被错误地输入为 ttutorialspointt 并存储在名为 x 的向量中,那么要删除第一个和最后一个“t”,可以使用命令 str_sub(x,2,-2)。示例 1library(stringr) x1
3K+ 次浏览
要统计 R 数据框中重复行的数量,首先需要使用 setDT 将数据框转换为 data.table 对象,然后使用 Count 函数统计重复项。例如,如果我们有一个名为 df 的数据框,则可以使用以下命令统计重复行:setDT(df)[,list(Count=.N),names(df)]。示例 1 实时演示考虑以下数据框:
108 次浏览
如果我们有一个向量,其中包含小于、等于和大于 2 的值,并且值 2 是阈值。如果为较低的值定义此阈值,并且我们希望将小于 2 的值替换为 2,则可以使用 pmax 函数。例如,对于向量 x,将执行 pmax(x,2)。示例 1 实时演示x1
要将 R 数据框中的多列转换为单列,可以使用 unlist 函数。例如,如果我们有一个定义为 df 的数据框,并且包含四列,则可以使用 data.frame(x=unlist(df)) 将 df 的列转换为单列。示例 1 实时演示考虑以下数据框:
308 次浏览
有很多方法可以定义异常值,研究人员和技术人员也可以手动设置。此外,我们可以使用第 5 百分位数作为下限异常值,使用第 95 百分位数作为上限异常值。为此,我们可以使用 scales 包的 squish 函数,如下例所示。示例 1library(scales) x1
986 次浏览
要查找 R 数据框中缺失值的百分比,可以使用 sum 函数和 prod 函数。例如,如果我们有一个名为 df 的数据框,其中包含一些缺失值,则可以使用以下命令计算缺失值的百分比:(sum(is.na(df))/prod(dim(df)))*100 示例 1 实时演示考虑以下数据框:
318 次浏览
在数据分析中,我们有时会根据我们的想法决定数据的规模或样本量,这可能会导致删除数据的一部分。其中一项可能是删除分类列中三个或更少的重复组合,这可以使用 dplyr 包的 filter 函数结合 group_by 函数来完成。示例 1 实时演示考虑以下数据框:
358 次浏览
要创建具有不同大小的重复元素的大型向量,我们可以使用 rep 函数以及逻辑向量作为索引。包含 TRUE 或 FALSE 的逻辑向量将定义使用 rep 函数创建的向量中值的选取或省略。如果使用 rep 创建的向量大于逻辑向量,则逻辑向量将被循环使用。示例 1 实时演示x1