如何创建一个包含特定列完整案例的 R 数据子集?


如果数据框中存在缺失值,则无法将所有值视为完整案例,我们可能希望仅提取完整的值。我们可能只想提取特定列的完整案例。因此,我们可以对要进行子集的数据框的列使用 is.na 的否定。

考虑以下数据框 -

示例

 现场演示

set.seed(123)
x<-sample(c(0,1,NA),20,replace=TRUE)
y<-sample(c(0:2,NA),20,replace=TRUE)
z<-sample(c(0:5,NA),20,replace=TRUE)
a<-sample(c(7,11,13,NA),20,replace=TRUE)
b<-sample(c(51,NA),20,replace=TRUE)
c<-sample(c(rnorm(2,1,0.05),NA),20,replace=TRUE)
df<-data.frame(x,y,z,a,b,c)
df

输出

   x    y    z    a     b    c
1 0    NA    0   13    51   0.9985727
2 NA    2    2    7    NA   NA
3  1    2    2   11    51   NA
4 NA   NA    2   11    NA   0.9985727
5 NA    2    1   NA    51   0.9985727
6  0    2    0   11    51   1.0126659
7  1    2    1   NA    NA   NA
8 NA    2    3   NA    NA   1.0126659
9  1    1    1   NA    NA   1.0126659
10 1    0   NA   11    51   NA
11 NA  NA    0   NA    51   NA
12 1   NA    3   13    NA   1.0126659
13 NA   2    5   13    51   0.9985727
14 1   NA    0    7    NA   NA
15 0   0     3   11    51   0.9985727
16 NA  1     1    7    51   0.9985727
17 0   NA    0   11    NA   0.9985727
18 0   0     5   13    51   1.0126659
19 0   1    NA   11    51   1.0126659
20 NA  0     2    7    NA   1.0126659

使用列 x 的完整案例进行子集化 -

示例

df[!is.na(df["x"]),]

输出

  x y z a b c
1  NA 0 13 NA 1.013801
6 1 2 NA 11 NA NA 7
1 1 2 7 NA 1.013801 8
1 0 3 13 51 1.061420
10 0 2 NA 13 NA NA
11 1 NA 4 11 51 NA
12 1 1 2 NA 51 1.013801
13 0 0 5 13 NA 1.013801
14 1 2 0 NA 51 NA
16 0 0 4 11 51 1.061420
19 0 NA NA NA 51 1.013801
20 0 1 4 11 NA 1.013801

使用列 y 的完整案例进行子集化 -

示例

df[!is.na(df["y"]),]

输出

x y z a b c
1 NA 0 4 11 NA 1.013801
2 NA 0 NA 7 51 NA
3 NA 2 0 7 51 1.061420
5 NA 1 1 7 51 1.013801
6 1 2 NA 11 NA NA
7 1 1 2 7 NA 1.013801
8 1 0 3 13 51 1.061420
9 NA 1 4 7 NA NA
10 0 2 NA 13 NA NA
 12 1 1 2 NA 51 1.013801
13 0 0 5 13 NA 1.013801
14 1 2 0 NA 51 NA
15 NA 2 1 NA 51 1.061420
16 0 0 4 11 51 1.061420
18 NA 2 3 13 NA 1.013801
20 0 1 4 11 NA 1.013801

使用列 z 的完整案例进行子集化 -

示例

df[!is.na(df["z"]),]

输出

  x   y  z  a   b    c
1 NA  0  4  11 NA 1.013801
 3 NA  2  0  7 51 1.061420
4 1  NA  0  13 NA 1.013801
5 NA  1  1 7 51 1.013801
7 1  1  2 7 NA 1.013801
8 1  0  3 13 51 1.061420
9 NA 1  4 7 NA   NA
11 1 NA 4 11 51   NA
12 1 1 2 NA 51   1.013801
 13 0 0 5 13 NA  1.013801
14 1 2 0 NA 51     NA
15 NA 2 1 NA 51    1.061420
16 0 0 4 11 51    1.061420
17 NA NA 4 11 NA NA
18 NA 2 3 13 NA 1.013801
20 0 1 4 11 NA 1.013801

使用列 a 的完整案例进行子集化 -

示例

df[!is.na(df["a"]),]

输出

x y z a b c 
1 NA 0 4 11 NA 1.013801 
2 NA 0 NA 7 51 NA 
3 NA 2 0 7 51 1.061420 
4 1 NA 0 13 NA 1.013801 
5 NA 1 1 7 51 1.013801 
6 1 2 NA 11 NA NA 
7 1 1 2 7 NA 1.013801 
8 1 0 3 13 51 1.061420 
9 NA 1 4 7 NA NA 
10 0 2 NA 13 NA NA 
11 1 NA 4 11 51 NA 
13 0 0 5 13 NA 1.013801 
16 0 0 4 11 51 1.061420 
17 NA NA 4 11 NA NA 
18 NA 2 3 13 NA 1.013801 
20 0 1 4 11 NA 1.013801

使用列 b 的完整案例进行子集化 -

示例

df[!is.na(df["b"]),]

输出

x y z a b c
2 NA 0 NA 7 51 NA
3 NA 2 0 7 51 1.061420
5 NA 1 1 7 51 1.013801
8 1 0 3 13 51 1.061420
11 1 NA 4 11 51 NA
12 1 1 2 NA 51 1.013801
14 1 2 0 NA 51 NA
15 NA 2 1 NA 51 1.061420
16 0 0 4 11 51 1.061420
19 0 NA NA NA 51 1.013801

使用列 c 的完整案例进行子集化 -

示例

df[!is.na(df["c"]),]

输出

x y z a b c
1 NA 0 4 11 NA 1.013801
3 NA 2 0 7 51 1.061420
4 1 NA 0 13 NA 1.013801
5 NA 1 1 7 51 1.013801
7 1 1 2 7 NA 1.013801
8 1 0 3 13 51 1.061420
12 1 1 2 NA 51 1.013801
13 0 0 5 13 NA 1.013801
15 NA 2 1 NA 51 1.061420
16 0 0 4 11 51 1.061420
18 NA 2 3 13 NA 1.013801
19 0 NA NA NA 51 1.013801
20 0 1 4 11 NA 1.013801

更新于: 2020年10月14日

267 次查看

开启您的 职业生涯

通过完成课程获得认证

开始学习
广告