找到 2038 篇文章 关于 R 编程

如何在 R 中使用数据框列创建分类变量?

Nizamuddin Siddiqui
更新于 2021年2月9日 11:46:57

1K+ 次浏览

如果变量是数值型的,则可以通过定义下限和上限将其转换为分类变量。例如,年龄从 21 岁到 25 岁可以转换为一个类别,例如 21-25。要将 R 数据框列转换为分类变量,可以使用 cut 函数。示例 1 实时演示考虑以下数据框:

如何在 R 中从字符串向量中删除最后一个字符?

Nizamuddin Siddiqui
更新于 2021年2月9日 11:43:56

642 次浏览

有时字符串向量在末尾或开头包含不必要的字符,或者字符串本身有意义但不需要,或者存在拼写错误。在这种情况下,我们需要删除不必要的字符。这可以使用 gsub 函数来完成。示例 1 实时演示x1

如何在 R 中删除字符串中的第一个和最后一个字符?

Nizamuddin Siddiqui
更新于 2021年2月9日 11:42:41

9K+ 次浏览

要删除字符串中的第一个和最后一个字符,可以使用 stringr 包的 str_sub 函数。例如,如果一个单词,比如 tutorialspoint,被错误地输入为 ttutorialspointt 并存储在名为 x 的向量中,那么要删除第一个和最后一个“t”,可以使用命令 str_sub(x,2,-2)。示例 1library(stringr) x1

如何在 R 数据框中统计重复行的数量?

Nizamuddin Siddiqui
更新于 2021年2月9日 11:43:02

3K+ 次浏览

要统计 R 数据框中重复行的数量,首先需要使用 setDT 将数据框转换为 data.table 对象,然后使用 Count 函数统计重复项。例如,如果我们有一个名为 df 的数据框,则可以使用以下命令统计重复行:setDT(df)[,list(Count=.N),names(df)]。示例 1 实时演示考虑以下数据框:

如何在 R 向量中将小于 2 的向量值替换为 2?

Nizamuddin Siddiqui
更新于 2021年2月9日 11:43:26

108 次浏览

如果我们有一个向量,其中包含小于、等于和大于 2 的值,并且值 2 是阈值。如果为较低的值定义此阈值,并且我们希望将小于 2 的值替换为 2,则可以使用 pmax 函数。例如,对于向量 x,将执行 pmax(x,2)。示例 1 实时演示x1

如何在 R 数据框中将多列转换为单列?

Nizamuddin Siddiqui
更新于 2021年2月8日 12:57:19

9K+ 次浏览

要将 R 数据框中的多列转换为单列,可以使用 unlist 函数。例如,如果我们有一个定义为 df 的数据框,并且包含四列,则可以使用 data.frame(x=unlist(df)) 将 df 的列转换为单列。示例 1 实时演示考虑以下数据框:

如何在 R 中用第 5 和第 95 百分位数的值替换异常值?

Nizamuddin Siddiqui
更新于 2021年2月8日 12:57:04

308 次浏览

有很多方法可以定义异常值,研究人员和技术人员也可以手动设置。此外,我们可以使用第 5 百分位数作为下限异常值,使用第 95 百分位数作为上限异常值。为此,我们可以使用 scales 包的 squish 函数,如下例所示。示例 1library(scales) x1

如何在 R 数据框中查找缺失值的百分比?

Nizamuddin Siddiqui
更新于 2021年2月8日 12:55:10

986 次浏览

要查找 R 数据框中缺失值的百分比,可以使用 sum 函数和 prod 函数。例如,如果我们有一个名为 df 的数据框,其中包含一些缺失值,则可以使用以下命令计算缺失值的百分比:(sum(is.na(df))/prod(dim(df)))*100 示例 1 实时演示考虑以下数据框:

如何在 R 数据框中删除具有三个或更少重复组合的分类列的行?

Nizamuddin Siddiqui
更新于 2021年2月8日 12:55:16

318 次浏览

在数据分析中,我们有时会根据我们的想法决定数据的规模或样本量,这可能会导致删除数据的一部分。其中一项可能是删除分类列中三个或更少的重复组合,这可以使用 dplyr 包的 filter 函数结合 group_by 函数来完成。示例 1 实时演示考虑以下数据框:

如何在 R 中创建具有不同大小的重复元素的大型向量?

Nizamuddin Siddiqui
更新于 2021年2月8日 12:51:52

358 次浏览

要创建具有不同大小的重复元素的大型向量,我们可以使用 rep 函数以及逻辑向量作为索引。包含 TRUE 或 FALSE 的逻辑向量将定义使用 rep 函数创建的向量中值的选取或省略。如果使用 rep 创建的向量大于逻辑向量,则逻辑向量将被循环使用。示例 1 实时演示x1

广告