296 次浏览
通常,如果我们从 R 数据框中提取一列,则将其提取为向量,但我们可能希望将其以数据框的形式提取,以便我们可以在其上应用数据框的操作。因此,我们可以使用单个方括号进行提取,并使用 T(TRUE)或(FALSE)值以及 drop = FALSE,以便输出成为数据框。请考虑以下数据框 - 示例 实时演示set.seed(999) x1
323 次浏览
如果向量中存在重复值,则表示向量中存在重复值,因此,值的索引将帮助我们识别向量中特定值的位置。我们可以使用 which 函数和 min 函数来查找向量中最小值的位置,如果存在多个最小值,则输出将显示所有相关位置。示例 实时演示x1
590 次浏览
为了创建预测模型,有必要创建数据集的三个子集,用于训练模型、测试模型和检查模型的有效性。这些子集通常称为训练、测试和验证。为此,我们可以使用不同类型的抽样方法,最常见的是随机抽样。在下面的示例中,您可以看到如何完成此操作。请考虑 base R 中的 mtcars 数据集 - 示例 实时演示data(mtcars) str(mtcars)输出'data.frame':32 obs. of 11 variables: $ mpg : num 21 21 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 ... ... 阅读更多
1K+ 次浏览
使用权重的直方图表示值的加权分布。在 R 中,我们可以使用 plotrix 包的 weighted.hist 函数来创建这种类型的直方图,我们只需要每个值对应的值和权重。由于 plotrix 不经常使用,因此我们必须确保使用 install.packages("plotrix") 安装此包,然后将其加载到 R 环境中。加载 plotrix 包 -library("plotrix")请考虑以下向量及其关联的权重 - 示例x
659 次浏览
要在 R 中查找 t 检验的临界值,我们需要使用 qt 函数。此函数需要显著性水平和样本量,并返回 t 分布的表格或临界值。以下示例显示了在不同情况下(例如左侧检验、右侧检验或双侧检验)计算临界值的方法。样本量为 30 且置信度为 95% 的左侧临界值 - 示例 实时演示qt(0.05, 30)输出[1] -1.697261样本量为 30 且置信度为 95% 的右侧临界值 - 示例 实时演示abs(qt(0.05, 30))输出[1] 1.697261 示例 实时演示qt(0.05, 50)输出[1] -1.675905示例 实时演示abs(qt(0.05, 50))输出[1] 1.675905 示例 实时演示qt(0.01, 50)输出[1] -2.403272示例 实时演示abs(qt(0.01, 50))输出[1] 2.403272 ... 阅读更多
数据分析是一项困难的任务,因为它在大型项目的较小子目标方面存在很大的差异。最小的任务之一可能是查找数据框中每一行中的最小值。为此,我们可以使用 apply 函数并将 FUN 参数传递为 min,以便我们可以获得最小值。请考虑以下数据框 - 示例 实时演示set.seed(101) x1
要在 R 中执行相关性检验,我们需要使用 cor.test 函数和两个变量,它返回许多值,例如检验统计量值、自由度、p 值、置信区间和相关系数值。如果我们想从相关性检验输出中提取相关系数值,则可以使用 estimate 函数,如下面的示例所示。示例 实时演示x1
703 次浏览
二项式数据有两个参数:样本量和成功次数。要查找 95% 置信区间,我们只需要在 R 中使用 prop.test 函数,但我们需要确保将正确的参数设置为 FALSE,以便在没有连续性校正的情况下计算置信区间。在下面的示例中,我们找到了不同样本量和成功次数的 95% 置信区间。示例 实时演示prop.test(x=25, n=100, conf.level=0.95, correct=FALSE)输出1-sample proportions test without continuity correction data: 25 out of 100, null probability 0.5 X-squared = 25, df = 1, p-value = 5.733e-07 ... 阅读更多
592 次浏览
当我们有因子列可以帮助区分数值列时,我们可能希望找到每个因子水平的最大值。这将帮助我们根据其最大值比较因子水平,如果我们想通过获取数据框中的所有列来做到这一点,则需要将 aggregate 函数与 merge 函数一起使用。请考虑以下数据框 - 示例 实时演示set.seed(78) Group
320 次浏览
如果我们有一个包含 NA 或 Inf 值的矩阵,并且我们想获取该矩阵中仅包含有限值的子集,则只有不包含 NA 或 Inf 值的行将作为输出。我们可以在 R 中使用 rowSums 和 is.finite 函数以及否定运算符!来做到这一点。示例 实时演示set.seed(999) M1