找到 34423 篇文章,关于编程

如何从 R 数据框中删除空行?

Nizamuddin Siddiqui
更新于 2020-08-11 12:54:43

609 次浏览

在调查或任何其他数据收集媒介中,不可能从所有单位获取所有信息。有时我们会获得部分信息,有时则什么也无法获得。因此,我们的数据中可能存在一些完全空白的行,而另一些行可能包含部分数据。可以删除空白行,并将其他空值填充为有助于处理缺失信息的方法。示例考虑以下数据框,它有一些缺失的行和一些缺失的值 -> x1 x2 x3 df df x1 x2 x3 1 1 2 5 2 2 2 5 ... 阅读更多

如何使用 dplyr 根据与列名匹配的字符串在 R 中选择列?

Nizamuddin Siddiqui
更新于 2020-08-11 12:48:03

942 次浏览

R 中的列选择通常使用列号或其名称与 $ delta 运算符一起完成。我们也可以选择其部分名称字符串或完整名称的列,而无需使用 $ delta 运算符。这可以通过 dplyr 包的 select 和 matches 函数来完成。示例加载 dplyr 包 -> library(dplyr)考虑基本 R 中的 BOD 数据 -> str(BOD) 'data.frame': 6 obs. of 2 variables: $ Time : num 1 2 3 4 5 7 $ demand: num 8.3 10.3 19 16 15.6 19.8 - attr(*, "reference")= chr "A1.4, p. 270"选择 BOD 的列 ... 阅读更多

如何在 R 数据框中为因子变量的每个级别选择第一行?

Nizamuddin Siddiqui
更新于 2020-08-11 12:37:42

509 次浏览

行的比较是数据分析中一个有影响力的部分,有时我们会比较变量与变量、值与值、案例或行与另一个案例或行,甚至一个完整的数据集与另一个数据集。这需要检查数据值的准确性和一致性,因此我们必须这样做。为此,我们需要选择所需的行、列等。要为因子变量的每个级别选择第一行,我们可以使用带有 ! 符号的 duplicated 函数。示例考虑以下数据框 -> x1 x2 x3 df head(df, 20)   x1 ... 阅读更多

如何在 R 中为数据框 a 的所有列创建折线图?

Nizamuddin Siddiqui
更新于 2020-08-11 12:33:23

190 次浏览

要检查数据框所有列的趋势,我们需要为所有这些列创建折线图。这些折线图有助于我们了解数据点在列中的下降或上升情况。一旦我们知道趋势,我们就可以尝试找出背后的原因并采取适当的措施。我们可以使用 plot.ts 函数(将数据绘制为时间序列)为每一列绘制折线图。示例考虑以下数据框。> set.seed(1) > x1 x2 x3 x4 x5 x6 df head(df, 20) x1 x2 x3 x4 x5 x6 ... 阅读更多

如何在 R 中查找向量的最小值和最大值的索引?

Nizamuddin Siddiqui
更新于 2020-08-11 12:26:53

351 次浏览

在分析项目的过程中,我们有时需要查找某些值的索引,主要是最小值和最大值的索引,以检查相应的行是否包含一些关键信息,或者我们是否可以忽略它。此外,如果我们不想忽略这些值,有时会根据数据特征将其转换为其他值。示例> x which(x==min(x)) [1] 1 > which(x==max(x)) [1] 25 > set.seed(2) > x1 x1  [1] 85 79 70  6  32  8 17 93 81 76 41 50 75 65  3 80 96 50 55 [20] 63  8 33 ... 阅读更多

如何在 R 中查找两个日期之间的天数和周数?

Nizamuddin Siddiqui
更新于 2020-08-11 09:20:30

296 次浏览

在数据分析中,时间序列是我们必须处理的常见数据之一,它可能还包含日期数据以及其他变量。我们可能希望找到两个时间之间的差异,以检查时间序列发生了多少天或几周的变化。这可以通过 difftime 函数轻松完成。示例> difftime(strptime("25/07/2021", format = "%d/%m/%Y"), + strptime("25/07/2020", format = "%d/%m/%Y"), units="weeks") Time difference of 52.14286 weeks > difftime(strptime("25.07.2021", format = "%d.%m.%Y"), + strptime("25.07.2020", format = "%d.%m.%Y"), units="weeks") Time difference of 52.14286 weeks > difftime(strptime("25.07.2021", format = "%d.%m.%Y"), + strptime("25.07.2020", format = ... 阅读更多

如何在 R 中从回归模型中提取回归系数、系数的标准误差、t 分数和 p 值?

Nizamuddin Siddiqui
更新于 2020-08-11 09:17:33

787 次浏览

R 中的回归分析输出为我们提供了很多值,但如果我们认为我们的模型足够好,我们可能只想提取系数、标准误差和 t 分数或 p 值,因为这些是最终起作用的值,特别是系数,因为它们有助于我们解释模型。我们可以使用 delta $ 运算符从回归模型摘要中提取这些值。示例考虑以下数据 -> set.seed(99) > x1 x2 x3 x4 x5 x6 x7 y Regression_Model summary(Regression_Model) Call: lm(formula = y ~ x1 + x2 + x3 + x4 + x5 + x6 + x7) ... 阅读更多

如何在 R 数据框中使用行总和的子集创建一个新列?

Nizamuddin Siddiqui
更新于 2020-08-11 09:12:07

1K+ 次浏览

在数据分析中,我们必须处理许多情况,其中之一是创建一个新列,该列包含仅某些行的行总和。这些总和将被重复,以便我们获得等于数据框中行数的值总数。我们可以使用 rowSums 和 rep 函数来创建此类列。示例考虑以下数据框 -> set.seed(99) > x1 x2 x3 x4 x5 df df x1 x2 x3 x4 x5 1 0.7139625 4 9.321058 0.33297863 4 2 0.9796581 2 4.298837 -1.47926432 11 3 0.5878287 ... 阅读更多

如何在 R 中处理错误“在对数据框进行子集化时选择了未定义的列”?

Nizamuddin Siddiqui
更新于 2020-08-11 09:03:47

48K+ 次浏览

错误“在对数据框进行子集化时选择了未定义的列”意味着在对数据框进行子集化时,R 不理解您要使用的列。通常,当我们在使用单个方括号进行子集化时忘记使用逗号时,就会发生这种情况。示例考虑以下数据框 -> set.seed(99) > x1 x2 x3 x4 x5 df df x1 x2 x3 x4 x5 1 0.7139625 4 9.321058 0.33297863 4 2 0.9796581 2 4.298837 -1.47926432 11 3 0.5878287 3 7.389898 -0.07847958 5 4 0.9438585 4 7.873764 -1.35241100 6 5 0.1371621 2 5.534758 -1.17969925 4 6 0.6226740 4 8.786676 -1.15705659 5 7 -0.3638452 1 ... 阅读更多

如何在 R 中组合列表?

Nizamuddin Siddiqui
更新于 2020-08-11 08:56:18

312 次浏览

当我们有多个列表但它们具有类似类型的数据时,我们可能希望组合或合并这些列表。这将有助于使用,因为我们可以使用一个列表名称执行计算,而不是在多个列表上应用它们。我们可以使用 mapply 函数组合多个列表。示例考虑以下列表 -> List1 List1 [[1]]   [1] "a" "b" "c" "d" "e" [[2]]   [1]  1   2   3   4   5 [[3]]   [1]  5   4   3   2   1 [[4]]   [1] 25 [[5]]   ... 阅读更多

广告

© . All rights reserved.