找到 34423 篇文章,关于编程

编写一个 Python 代码,用于查找两个数据框的交叉表

Vani Nalliappan
更新于 2021年2月25日 05:59:10

487 次浏览

假设您有两个数据框,交叉表的结果如下所示:年龄 12 13 14 分数 80 90 85 ID 1 1 0 0 2 0 1 0 3 1 0 0 4 0 1 0 5 0 0 1解决方案要解决这个问题,我们将遵循以下步骤:定义两个数据框在索引中应用 df.crosstab() 函数为 'ID',列为 '年龄' 和 '分数'。定义如下:pd.crosstab(index=df['Id'],columns=[df['Age'],df1['Mark']])示例import pandas as pd df = pd.DataFrame({'Id':[1,2,3,4,5],'Age':[12,13,12,13,14]}) df1 = pd.DataFrame({'Mark':[80,90,80,90,85]}) print(pd.crosstab(index=df['Id'],columns=[df['Age'],df1['Mark']]))输出年龄 12 13 14 分数 80 90 85 ID 1 1 0 0 2 0 1 0 3 1 0 0 4 0 1 0 5 0 0 1

编写一个 Python 程序,使用 applymap 打印数据框中所有列的元素长度

Vani Nalliappan
更新于 2021年2月25日 05:58:11

309 次浏览

数据框中所有列的元素长度结果如下所示:数据框: 水果 城市 0 苹果 西姆拉 1 橙子 悉尼 2 芒果 勒克瑙 3 奇异果 惠灵顿所有列中元素的长度 水果 城市 0 5 6 1 6 6 2 5 7 3 4 10解决方案要解决这个问题,我们将遵循以下步骤:定义一个数据框使用 df.applymap 函数在 lambda 函数内计算所有列中元素的长度,如下所示:df.applymap(lambda x:len(str(x)))示例让我们检查以下代码以了解…… 阅读更多

编写一个 Python 代码,计算前 2 个和后 2 个值的 ID 和年龄列之间的百分比变化

Vani Nalliappan
更新于 2021年2月25日 05:55:54

318 次浏览

假设您有一个数据框,ID 和年龄列的前 2 个和后 2 个值的百分比变化结果如下所示:ID 和年龄 - 前 2 个值 ID 年龄 0 NaN NaN 1 1.0 0.0 ID 和年龄 - 后 2 个值 ID 年龄 3 0.000000 -0.071429 4 0.666667 0.000000解决方案要解决这个问题,我们将遵循以下步骤:定义一个数据框在切片 [0:2] 中应用 df[[‘Id’, ’Age’]].pct_change()df[['Id', 'Age']].pct_change()[0:2]在切片 [-2:] 中应用 df[[‘Id’, ’Age’]].pct_change()df[['Id', 'Age']].pct_change()[0:2]示例让我们检查以下代码以更好地理解…… 阅读更多

编写一个 Python 程序,在数据框中执行表级管道函数

Vani Nalliappan
更新于 2021年2月25日 05:48:54

168 次浏览

假设您有一个数据框,表级函数的结果如下所示:表级函数: ID 分数 0 6.0 85.0 1 7.0 95.0 2 8.0 75.0 3 9.0 90.0 4 10.0 95.0解决方案要解决这个问题,我们将遵循以下步骤:定义一个数据框创建一个具有两个参数的用户定义函数 avg 并返回结果 (a+b/2)。定义如下:def avg(a, b): return (a+b/2)应用 pipe() 函数在第一个值为 avg() 和第二个参数为 10 的情况下执行表级函数,以计算所有数据框值的平均值。df.pipe(avg, 10)示例让我们检查以下代码以…… 阅读更多

如何在 R 中使用 ggplot2 更改图例形状?

Nizamuddin Siddiqui
更新于 2021年2月11日 12:17:30

1K+ 次浏览

默认情况下,图例形状是圆形的,但我们可以使用 ggplot2 包的 guides 函数来更改它。例如,如果我们有一个包含两个数值列(例如 x 和 y)和一个分类列 Group 的数据框,那么可以通过使用以下命令创建 x 和 y 之间的散点图,其中分类列 Group 中的类别具有不同的颜色值和不同的图例形状:ggplot(df, aes(x, y, color=Group))+geom_point()+guides(colour=guide_legend(override.aes=list(shape=0)))在这里,我们可以将 shape 参数的值更改为 0 到 25 之间的任何值。考虑以下数据框:示例 在线演示x阅读更多

如何在 R 中处理在子集化数据时出现的“未定义列已选择”错误?

Nizamuddin Siddiqui
更新于 2021年2月11日 12:14:37

2K+ 次浏览

当我们使用单个方括号进行子集化时,需要注意在适当的位置放置逗号。如果我们想使用列来子集行,则需要在条件之前放置逗号。“未定义列已选择”错误发生在我们没有指定任何逗号时。查看示例以了解其工作原理。考虑以下数据框:示例 在线演示x15),]输出 x1 x2 1 7 0 2 6 4 4 6 1 7 6 1 9 7 3 11 6 3 12 9 2 15 7 4 16 7 3 17 6 2 18 6 3示例 在线演示y1

如何在 R 中使用 dplyr 对数据框行求和进行折叠?

Nizamuddin Siddiqui
更新于 2021年2月11日 12:05:26

3K+ 次浏览

要使用 dplyr 包对数据框行求和进行折叠,我们可以使用 dplyr 包的 summarise_all 函数。例如,如果我们有一个名为 df 的数据框,它有一个分类列(例如 Group)和一个数值列,那么可以通过使用以下命令对行求和进行折叠:df%>%group_by(Group)%>%summarise_all(funs(sum))考虑以下数据框:示例 在线演示Group

如何在 R 中使用具有多个匹配项的字符列创建子集?

Nizamuddin Siddiqui
更新于 2021年2月11日 12:02:55

607 次浏览

子集化是数据分析中最重要的方面之一。这种情况之一可能是基于多个值对字符列进行子集化。例如,如果 R 数据框的字符列有 5 个类别,那么我们可能想要提取 2 个、3 个或 4 个值,这可以通过使用 dplyr 包的 filter 函数和 stringr 包的 str_detect 函数来完成。考虑以下数据框:示例 在线演示Group

如何在 R 中查找存在于另一个向量中的频率向量元素?

Nizamuddin Siddiqui
更新于 2021年2月11日 11:59:10

122 次浏览

如果向量值存在于另一个向量中,那么我们可能想要查找这些值在另一个向量中的频率/计数。例如,如果我们有两个向量 x 和 y,并且 y 中的一些值也存在于 x 中。因此,我们可以通过使用命令 colSums(outer(x,y,"==")) 来查找 x 中 y 值的频率。示例 在线演示x1

如何在 R 中绘制带有标签的时间序列数据?

Nizamuddin Siddiqui
更新于 2021年2月11日 11:54:39

469 次浏览

如果我们有一个存储在数据框中的时间序列数据,那么不能直接将其作为时间序列进行绘制,而且也不能直接使用序列标签。因此,我们首先需要使用函数 ts 将数据框转换为时间序列对象,如下面的示例所示,然后使用 plot 函数创建绘图,这也会显示序列的标签。考虑以下数据框:示例 在线演示Time

广告
© . All rights reserved.