找到 34423 篇文章 关于编程

如何从 R 数据框中删除空行?

Nizamuddin Siddiqui
更新于 2020年8月11日 12:54:43

609 次浏览

在调查或任何其他数据收集方式中,不可能从所有单位获得所有信息。有时我们得到部分信息,有时什么也得不到。因此,我们的数据中可能存在一些完全空白的行,而有些行可能只有部分数据。可以删除空白行,并使用有助于处理缺失信息的方法填充其他空值。示例考虑以下数据框,它有一些缺失的行和一些缺失的值 −> x1 x2 x3 df df x1 x2 x3 1 1 2 5 2 2 2 5 ... 阅读更多

如何使用 dplyr 根据与列名匹配的字符串在 R 中选择列?

Nizamuddin Siddiqui
更新于 2020年8月11日 12:48:03

942 次浏览

通常使用列号或带 $ 符号的列名来选择 R 中的列。我们也可以使用 dplyr 包的 select 和 matches 函数来选择其部分名称字符串或完整名称的列,而无需使用 $ 符号。示例加载 dplyr 包 −> library(dplyr)考虑 base R 中的 BOD 数据 −> str(BOD) 'data.frame': 6 obs. of 2 variables: $ Time : num 1 2 3 4 5 7 $ demand: num 8.3 10.3 19 16 15.6 19.8 - attr(*, "reference")= chr "A1.4, p. 270"选择 BOD 的列 ... 阅读更多

如何在 R 数据框中为因子变量的每个级别选择第一行?

Nizamuddin Siddiqui
更新于 2020年8月11日 12:37:42

509 次浏览

行的比较是数据分析中一个重要的部分,有时我们会比较变量与变量、值与值、案例或行与另一个案例或行,甚至一个完整的数据集与另一个数据集。这是为了检查数据值的准确性和一致性,因此我们必须这样做。为此,我们需要选择所需的行列等。要为因子变量的每个级别选择第一行,我们可以使用带 ! 符号的 duplicated 函数。示例考虑以下数据框 −> x1 x2 x3 df head(df, 20)   x1 ... 阅读更多

如何在 R 中为数据框 a 的所有列创建折线图?

Nizamuddin Siddiqui
更新于 2020年8月11日 12:33:23

190 次浏览

为了检查数据框所有列的趋势,我们需要为所有这些列创建折线图。这些折线图帮助我们了解数据点在列中的下降或上升情况。一旦我们知道了趋势,我们就可以尝试找出它们背后的原因并采取适当的措施。我们可以使用 plot.ts 函数为每一列绘制折线图,该函数将数据绘制为时间序列。示例考虑以下数据框。> set.seed(1) > x1 x2 x3 x4 x5 x6 df head(df, 20) x1 x2 x3 x4 x5 x6 ... 阅读更多

如何在 R 中查找向量的最小值和最大值的索引?

Nizamuddin Siddiqui
更新于 2020年8月11日 12:26:53

351 次浏览

在分析项目的數據探索過程中,我們有時需要查找某些值的索引,主要是最小值和最大值的索引,以檢查相應數據行是否包含一些關鍵信息,或者我們可以忽略它。此外,如果我們不想忽略這些值,則有時會根據數據特徵將它們轉換為其他值。示例> x which(x==min(x)) [1] 1 > which(x==max(x)) [1] 25 > set.seed(2) > x1 x1  [1] 85 79 70  6  32  8 17 93 81 76 41 50 75 65  3 80 96 50 55 [20] 63  8 33 ... 阅读更多

如何在 R 中查找两个日期之间的天数和周数?

Nizamuddin Siddiqui
更新于 2020年8月11日 09:20:30

296 次浏览

在数据分析中,时间序列是我们必须处理的常见数据之一,它可能还包含日期数据以及其他变量。我们可能想要找到两个时间之间的差异,以检查时间序列变化了多少天或多少周。这可以通过 difftime 函数轻松完成。示例> difftime(strptime("25/07/2021", format = "%d/%m/%Y"), + strptime("25/07/2020", format = "%d/%m/%Y"), units="weeks") Time difference of 52.14286 weeks > difftime(strptime("25.07.2021", format = "%d.%m.%Y"), + strptime("25.07.2020", format = "%d.%m.%Y"), units="weeks") Time difference of 52.14286 weeks > difftime(strptime("25.07.2021", format = "%d.%m.%Y"), + strptime("25.07.2020", format = ... 阅读更多

如何从 R 中的回归模型中提取回归系数、系数的标准误差、t 分数和 p 值?

Nizamuddin Siddiqui
更新于 2020年8月11日 09:17:33

787 次浏览

R 中的回归分析输出给了我们很多值,但如果我们认为我们的模型足够好,我们可能只想提取系数、标准误差和 t 分数或 p 值,因为这些才是最终重要的值,特别是系数,因为它们有助于我们解释模型。我们可以使用 delta $ 运算符从回归模型摘要中提取这些值。示例考虑以下数据 −> set.seed(99) > x1 x2 x3 x4 x5 x6 x7 y Regression_Model summary(Regression_Model) Call: lm(formula = y ~ x1 + x2 + x3 + x4 + x5 + x6 + x7) ... 阅读更多

如何在 R 数据框中使用行总和的子集创建一个新列?

Nizamuddin Siddiqui
更新于 2020年8月11日 09:12:07

1K+ 次浏览

在数据分析中,我们必须处理许多情况,其中一种情况是创建一个新列,其中包含一些行的行总和。这些总和将被重复,以便我们获得等于数据框中行数的值总数。我们可以使用 rowSums 和 rep 函数来创建这种类型的列。示例考虑以下数据框 −> set.seed(99) > x1 x2 x3 x4 x5 df df x1 x2 x3 x4 x5 1 0.7139625 4 9.321058 0.33297863 4 2 0.9796581 2 4.298837 -1.47926432 11 3 0.5878287 ... 阅读更多

如何在 R 中处理错误“在子集数据框时选择了未定义的列”?

Nizamuddin Siddiqui
更新于 2020年8月11日 09:03:47

48K+ 次浏览

错误“在子集数据框时选择了未定义的列”意味着 R 不理解在子集数据框时要使用的列。通常,当我们忘记在使用单个方括号进行子集时使用逗号时,就会发生这种情况。示例考虑以下数据框 −> set.seed(99) > x1 x2 x3 x4 x5 df df x1 x2 x3 x4 x5 1 0.7139625 4 9.321058 0.33297863 4 2 0.9796581 2 4.298837 -1.47926432 11 3 0.5878287 3 7.389898 -0.07847958 5 4 0.9438585 4 7.873764 -1.35241100 6 5 0.1371621 2 5.534758 -1.17969925 4 6 0.6226740 4 8.786676 -1.15705659 5 7 -0.3638452 1 ... 阅读更多

如何在 R 中组合列表?

Nizamuddin Siddiqui
更新于 2020年8月11日 08:56:18

312 次浏览

如果我们有多个列表,但它们的数据类型相似,那么我们可能希望将这些列表组合或合并。这样做很有帮助,因为我们可以使用一个列表名称执行计算,而不是对多个列表分别进行计算。我们可以借助 mapply 函数合并多个列表。示例考虑以下列表 −> 列表1 列表1 [[1]] [1] "a" "b" "c" "d" "e" [[2]] [1] 1 2 3 4 5 [[3]] [1] 5 4 3 2 1 [[4]] [1] 25 [[5]] ... 阅读更多

广告
© . All rights reserved.