Python Pandas - 描述性统计



描述性统计是数据分析中必不可少的工具,它提供了一种总结和理解数据的方法。在 Python 的 Pandas 库中,有许多方法可用于计算 Series 和 DataFrame 对象的描述性统计。

这些方法提供了各种聚合函数,如 sum()、mean() 和 quantile(),以及诸如 cumsum() 和 cumprod() 等运算,它们返回相同大小的对象。

在本教程中,我们将讨论 Pandas 中一些最常用的描述性统计函数,这些函数应用于 Series 和 DataFrame 对象。根据其功能,这些方法可以分为不同的类别,例如聚合函数、累积函数等等。

聚合函数

聚合函数从一系列数据中生成单个值,从而对数据集进行简洁的总结。以下是一些主要的聚合函数:

序号 方法和描述
1

mean()

返回沿请求轴的值的平均值。

2

sum()

返回沿请求轴的值的总和。

3

median()

返回值的算术中位数。

4

min()

返回沿请求轴的值的最小值。

5

max()

返回沿请求轴的值的最大值。

6

count()

返回给定对象中非 NA/空观察值的个数。

7

quantile()

返回给定分位数的值。

8

mode()

返回沿所选轴/Series 的每个元素的众数。

9

var()

返回沿请求轴的无偏方差。

10

kurt()

返回沿请求轴的无偏峰度。

11

skew()

返回沿请求轴的无偏偏度。

12

sem()

返回沿请求轴的无偏偏度。

13

corr()

计算与其他对象的关联,排除缺失值。

14

cov()

计算两个对象之间的协方差,排除 NA/空值。

15

autocorr()

计算滞后 N 自相关。

累积函数

累积函数提供运行总计或乘积,并保持与输入数据相同的形状。这些在时间序列分析或理解趋势方面非常有用:

序号 方法和描述
1

cumsum()

返回 DataFrame 或 Series 轴上的累积和。

2

cumprod()

返回 DataFrame 或 Series 轴上的累积积。

3

cummax()

返回 DataFrame 或 Series 轴上的累积最大值。

4

cummin()

返回 DataFrame 或 Series 轴上的累积最小值。

布尔函数

布尔函数根据 Series 中的逻辑运算返回布尔值:

序号 方法和描述
1

all()

如果所有元素都为 True,则返回 True,可能沿某个轴。

2

any()

如果任何元素都为 True,则返回 True,可能沿某个轴。

3

between()

如果元素在左边界和右边界之间,则为每个元素返回 True。

变换函数

变换函数对 Series 中的每个元素应用数学运算,返回转换后的 Series:

序号 方法和描述
1

diff()

计算对象中元素之间的差值,在指定数量的周期内。

2

pct_change()

计算当前元素和先前元素之间的百分比变化。

3

rank()

计算给定对象中值的秩。

索引相关函数

这些函数与 Series 索引相关,并提供操纵和分析索引标签的方法:

序号 方法和描述
1

idxmax()

返回最大值第一次出现的索引。

2

idxmin()

返回最小值第一次出现的索引。

3

value_counts()

返回一个 Series,其中包含唯一值的计数。

4

unique()

返回 Series 元素中唯一值的数组。

统计函数

这些函数提供 Series 数据的各种统计指标:

序号 方法和描述
1

nunique()

返回给定对象中唯一值的个数。

2

std()

返回 Series 值的标准差。

3

abs()

返回一个 Series/DataFrame,其中包含每个元素的绝对数值。

4

clip()

在输入阈值处修剪值,将超出边界的返回值设置为边界值。

5

round()

将给定对象中的每个值四舍五入到指定的小数位数。

6

prod()

返回给定对象元素的乘积。

7

describe()

生成给定对象的描述性统计信息。

广告
© . All rights reserved.