2K+ 次浏览
数据提取或选择可以通过多种方式完成,例如基于单个值、值范围等。这在我们需要比较数据集的子集或使用子集进行分析时通常是必需的。基于值范围的行选择也可以用于测试。我们可以使用子集函数来实现。示例考虑以下数据框 - 实时演示> x1 x2 x3 df df输出 x1 x2 x3 1 3 2 6 2 3 4 9 3 4 4 12 4 4 8 12 5 3 5 11 ... 阅读更多
267 次浏览
使用 plot 函数创建的坐标轴标签的默认大小似乎不够大,而且看起来也不美观。因此,我们可能需要更改其大小和颜色,因为图表的显示效果非常重要。这可以通过使用 col.lab 设置颜色和使用 cex.lab 设置大小来实现。示例实时演示> x y plot(x,y)输出更改坐标轴标签的颜色和大小 - > plot(x,y,col.lab="blue",cex.lab=2)输出> plot(x,y,col.lab="dark blue",cex.lab=3)输出
705 次浏览
当我们有一个包含所有数值列的数据框时,我们可能需要查找每一行的最大值。例如,如果我们有一个销售数据集,其中每一行代表一个客户,列代表产品及其数量值,那么我们可能需要查找每一行的最大值以找出谁购买了哪种产品的数量最多。这可以通过使用 apply 函数对行进行 max 操作来实现。示例考虑以下数据框 - 实时演示> x1 x2 x3 x4 x5 df1 df1输出 x1 ... 阅读更多
有时,我们不需要查找两个数据框之间的公共行,而是需要查找不公共的行。当我们预期不公共的行数远多于公共行数时,这通常很有用。我们可以使用带有子集函数的否定运算符(用感叹号表示)来实现。示例考虑以下数据框 - 实时演示> x1 y1 df1 df1输出 x1 y1 1 10 6 2 5 9 3 10 10 4 4 10 5 1 6 6 1 4 7 9 3 8 5 10 9 10 3 10 8 2 11 6 10 12 ... 阅读更多
128 次浏览
我们知道,R 是一种区分大小写的编程语言,因此匹配大小写不同的字符串并不简单。例如,如果一个向量包含 tutorialspoint,而另一个向量包含 TUTORIALSPOINT,那么要检查字符串是否匹配,我们不能直接使用 match 函数。为此,我们必须使用 match 函数将小写字符串转换为大写或将大写字符串转换为小写。示例实时演示> x1 x1输出[1] "z" "v" "r" "y" "z" "l" "v" "t" "f" "p" "p" "z" "e" "b" "a" "o" "m" "d" [19] "e" "l" "y" "y" "u" "u" "w" "b" "a" "j" "n" "v" ... 阅读更多
283 次浏览
有时,字符串向量具有模式,有时我们需要根据字符从字符串向量中创建模式。例如,我们可能需要从包含所有名称的向量中提取美利坚合众国的州名。这可以使用 grepl 函数来实现。示例考虑以下包含美国州名的向量 - > US_states US_states[grepl("^A", US_states)] [1] "Alabama" "Alaska" "American Samoa" "Arizona" [5] "Arkansas" > US_states[grepl("^B", US_states)] character(0) > US_states[grepl("^C", US_states)] [1] "California" "Colorado" "Connecticut" > US_states[grepl("^D", US_states)] [1] "Delaware" "District of Columbia" > US_states[grepl("^E", US_states)] character(0) > US_states[grepl("^F", US_states)] [1] ... 阅读更多
1K+ 次浏览
在数据分析中,有时我们需要查找当前值与前一个值之差,这对于分组也可能需要。这有助于我们比较值之间的差异。在 R 中,我们可以使用 dplyr 包的 group_by 和 mutate 函数以及 lag 函数。示例考虑以下数据框 - 实时演示> Group Frequency df1 df1输出 Group Frequency 1 A 7 2 A 6 3 A 9 4 A 12 5 B 19 6 B 19 7 B 4 8 B 6 9 C 14 10 C 6 ... 阅读更多
703 次浏览
有时我们想从数据框中提取计数,该计数可能是基于行值具有相同特征的列数。例如,如果我们有一个包含三列和五十行的包含 1 到 100 之间的整数值的数据框,那么我们可能想要查找每一行中值大于 20 的列数。这可以使用 rowSums 函数来实现。示例考虑以下数据框 - 实时演示> x1 x2 x3 df df输出 x1 x2 x3 1 9 72 9 2 5 20 ... 阅读更多
联立方程中的数据可以读作矩阵,然后我们可以求解这些矩阵以找到变量的值。例如,如果我们有三个方程:-x + y + z = 6 3x + 2y + 4z = 9 2x + 2y – 6z = 3,那么我们将把这些方程转换为矩阵,并使用 R 中的 solve 函数求解它们。示例 1 实时演示> A A输出 [, 1] [, 2] [, 3] [1, ] 1 1 2 [2, ] 3 2 4 [3, ] 2 3 -6 实时演示> b ... 阅读更多
172 次浏览
通常,使用 ggplot2 包创建的图上的网格线彼此相距较远,但有时如果网格线彼此靠近,则图表看起来更好,因此我们可能需要这样做。如果 Y 轴绘制连续变量,则可以通过使用 scale_y_continuous 设置 minor_breaks 和 breaks 来实现。示例考虑以下数据框 - 实时演示> x y df df输出 x y 1 14 16 2 36 1 3 78 18 4 61 6 5 19 11 6 2 40 7 93 23 8 10 13 9 3 21 10 55 31 ... 阅读更多