296 次浏览
通常,如果我们从 R 数据框中提取一列,则它将作为向量提取,但我们可能希望将其以数据框的形式提取,以便我们可以对其应用数据框的操作。因此,我们可以使用带有 T(TRUE)或(FALSE)值和 drop = FALSE 的单个方括号进行提取,以便输出成为数据框。请考虑以下数据框 - 示例 现场演示 set.seed(999) x1
323 次浏览
如果向量中存在重复值,这意味着向量中存在重复项,因此,值的索引将帮助我们识别向量中特定值的位 置。我们可以使用带有 min 函数的 which 函数来查找向量中最小值的位 置,如果存在多个最小值,则输出将显示所有相关位 置。示例 现场演示 x1
590 次浏览
为了创建预测模型,有必要为训练模型、测试模型和检查模型验证的目的创建数据集的三个子集。这些子集通常被称为训练、测试和验证。为此,我们可以使用不同类型的抽样方法,最常见的是随机抽样。在下面的示例中,您可以看到如何做到这一点。考虑 base R 中的 mtcars 数据集 - 示例 现场演示 data(mtcars) str(mtcars) 输出 'data.frame':32 obs. of 11 variables: $ mpg : num 21 21 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 ... ... 阅读更多
1K+ 次浏览
使用权重的直方图表示值的加权分布。在 R 中,我们可以使用 plotrix 包的 weighted.hist 函数创建这种类型的直方图,我们只需要每个值对应的值和权重。由于 plotrix 不经常使用,我们必须确保我们使用 install.packages("plotrix") 安装此包,然后将其加载到 R 环境中。加载 plotrix 包 - library("plotrix") 请考虑以下向量及其与该向量相关的权重 - 示例 x
659 次浏览
要在 R 中查找 t 检验的临界值,我们需要使用 qt 函数。此函数需要显著性水平和样本大小,并返回 t 分布的表格或临界值。以下示例显示了在不同情况下计算临界值的方法,例如左侧检验、右侧检验或双侧检验。样本大小为 30 且置信水平为 95% 的左侧临界值 - 示例 现场演示 qt(0.05, 30) 输出 [1] -1.697261 样本大小为 30 且置信水平为 95% 的右侧临界值 - 示例 现场演示 abs(qt(0.05, 30)) 输出 [1] 1.697261 示例 现场演示 qt(0.05, 50) 输出 [1] -1.675905 示例 现场演示 abs(qt(0.05, 50)) 输出 [1] 1.675905 示例 现场演示 qt(0.01, 50) 输出 [1] -2.403272 示例 现场演示 abs(qt(0.01, 50)) 输出 [1] 2.403272 ... 阅读更多
数据分析是一项困难的任务,因为它在大型项目较小目标方面存在很大差异。其中一项最小的任务可能是查找数据框中每一行中的最小值。为此,我们可以使用 apply 函数并将 FUN 参数传递为 min,以便我们可以获得最小值。请考虑以下数据框 - 示例 现场演示 set.seed(101) x1
要在 R 中执行相关性检验,我们需要使用带有两个变量的 cor.test 函数,它会返回许多值,例如检验统计量值、自由度、p 值、置信区间和相关系数。如果我们想从相关性检验输出中提取相关系数,则可以使用 estimate 函数,如下面的示例所示。示例 现场演示 x1
703 次浏览
二项式数据有两个参数,样本大小和成功次数。要查找 95% 置信区间,我们只需要在 R 中使用 prop.test 函数,但我们需要确保将正确的参数设置为 FALSE,以便在没有连续性校正的情况下计算置信区间。在下面的示例中,我们找到了不同样本大小和成功次数的 95% 置信区间。示例 现场演示 prop.test(x=25, n=100, conf.level=0.95, correct=FALSE) 输出 1-sample proportions test without continuity correction data: 25 out of 100, null probability 0.5 X-squared = 25, df = 1, p-value = 5.733e-07 ... 阅读更多
592 次浏览
当我们有一个因子列可以帮助区分数值列时,我们可能希望找到每个因子水平的最大值。这将帮助我们根据其最大值来比较因子水平,如果我们想通过获取数据框中的所有列来做到这一点,则需要将 aggregate 函数与 merge 函数一起使用。请考虑以下数据框 - 示例 现场演示 set.seed(78) Group
320 次浏览
如果我们有一个包含 NA 或 Inf 值的矩阵,并且我们想要提取仅包含有限值的矩阵子集,那么只有不包含 NA 或 Inf 值的行将作为输出。我们可以在 R 中使用 rowSums 和 is.finite 函数以及否定运算符 ! 来实现这一点。示例 现场演示 set.seed(999) M1