115 次查看
要创建一列包含行中最大大小字符串值的列,我们可以使用 apply 函数并通过创建如下所示的函数来定义最大值的字符串大小。如果所有列的字符数相同或存在一些相同的值,则输出将是第一个。示例 1 实时演示请考虑以下数据框 - x1
1K+ 次查看
当我们在 R 中使用 table 函数时,输出显示向量或数据框列中可用值的频率。如果我们想创建包含不属于向量或列的值的频率为零的表,那么首先我们需要先将它们转换为因子,然后使用 table 函数。示例 1 实时演示x1
3K+ 次查看
要查找每个变量与其余变量的相关性,我们可以创建一个相关矩阵,但对于仅一个变量与所有其他变量的相关性,我们需要在 cor 函数内定义列。输出将表示作为函数内部传递的列和行。示例 1 实时演示请考虑以下数据框 - x1
平方偏差之和是每个值与平均值之差的平方的总和。要找到此值,我们需要在 R 平台上创建公式。例如,如果我们有一个名为 df 的数据框,其中包含一列 x,则 x 的平方偏差之和可以通过使用 sum((df$x−mean(df$x))^2) 计算。示例 1 实时演示请考虑以下数据框 - set.seed(1021) x1
935 次查看
出于某些原因,我们可能希望将分类列转换为数值型,例如有序或名义数据的参数结果。如果我们有分类列并且值使用字母/单词表示,则转换将基于类别的第一个字符。要了解转换,请查看以下示例。示例 1 实时演示请考虑以下数据框 - set.seed(100) x1
784 次查看
列表中变量的名称实际上是列表元素。这些元素可以是命名的,也可以是未命名的。命名可以通过 names 函数完成,重命名也可以通过相同的方式完成。例如,如果我们有一个名为 LIST 的列表,则 LIST 中元素的名称可以通过使用以下命令完成:names(LIST)
13K+ 次查看
NaN 值在 R 中称为非数字。它也称为未定义或不可表示,但它属于数值数据类型,用于非数值的值,尤其是在浮点运算的情况下。要从包含 NaN 的 R 数据框中删除行,我们可以使用 na.omit 函数。示例 1 实时演示请考虑以下数据框 - x1
822 次查看
如果我们有非常大的数据集,那么我们很可能会忘记列名,因此,如果我们知道列名,我们可能希望检查特定列是否存在于数据框中。为此,我们可以使用 grep 函数,如果该列存在于数据框中,则该函数将返回列名,否则返回 0。要了解它是如何工作的,请查看以下示例。示例 1 实时演示请考虑以下数据框 - 性别
944 次查看
在数据分析中,我们经常需要查找小于、小于等于、大于或大于等于的值,以将它们与某个阈值进行比较。有时我们还需要这些值的频率。因此,我们可以为此目的使用 sum 函数。例如,如果向量 x 有 10 个整数值,那么要检查其中有多少个大于或等于 10,我们可以使用命令 sum(x>=10)。示例 1 实时演示x1=5)输出[1] 83示例 2 实时演示x2=5)输出[1] 8示例 3 实时演示x3=0.25)输出[1] 38示例 4 实时演示x4=10)输出[1] 49示例 5 实时演示x5=4)输出[1] 21
5K+ 次查看
如果我们在 R 数据框中具有两列分类列,那么我们可以找到每个类别的频率/计数相对于另一列中的每个类别。这将有助于我们比较所有类别的频率。要查找类别的计数,我们可以使用 table 函数,如下面的示例所示。示例 1 实时演示请考虑以下数据框 - x1