Python Pandas - 描述性统计

描述性统计是数据分析中必不可少的工具，它提供了一种总结和理解数据的方法。在 Python 的 Pandas 库中，有许多方法可用于计算 Series 和 DataFrame 对象的描述性统计。

这些方法提供了各种聚合函数，如 sum()、mean() 和 quantile()，以及诸如 cumsum() 和 cumprod() 等运算，它们返回相同大小的对象。

在本教程中，我们将讨论 Pandas 中一些最常用的描述性统计函数，这些函数应用于 Series 和 DataFrame 对象。根据其功能，这些方法可以分为不同的类别，例如聚合函数、累积函数等等。

聚合函数

聚合函数从一系列数据中生成单个值，从而对数据集进行简洁的总结。以下是一些主要的聚合函数：

累积函数提供运行总计或乘积，并保持与输入数据相同的形状。这些在时间序列分析或理解趋势方面非常有用：

序号	方法和描述
1	cumsum() 返回 DataFrame 或 Series 轴上的累积和。
2	cumprod() 返回 DataFrame 或 Series 轴上的累积积。
3	cummax() 返回 DataFrame 或 Series 轴上的累积最大值。
4	cummin() 返回 DataFrame 或 Series 轴上的累积最小值。

布尔函数根据 Series 中的逻辑运算返回布尔值：

序号	方法和描述
1	all() 如果所有元素都为 True，则返回 True，可能沿某个轴。
2	any() 如果任何元素都为 True，则返回 True，可能沿某个轴。
3	between() 如果元素在左边界和右边界之间，则为每个元素返回 True。

序号

方法和描述

all()

如果所有元素都为 True，则返回 True，可能沿某个轴。

any()

如果任何元素都为 True，则返回 True，可能沿某个轴。

between()

如果元素在左边界和右边界之间，则为每个元素返回 True。

变换函数对 Series 中的每个元素应用数学运算，返回转换后的 Series：

序号	方法和描述
1	diff() 计算对象中元素之间的差值，在指定数量的周期内。
2	pct_change() 计算当前元素和先前元素之间的百分比变化。
3	rank() 计算给定对象中值的秩。

序号

方法和描述

diff()

计算对象中元素之间的差值，在指定数量的周期内。

pct_change()

计算当前元素和先前元素之间的百分比变化。

rank()

计算给定对象中值的秩。

这些函数与 Series 索引相关，并提供操纵和分析索引标签的方法：

序号	方法和描述
1	idxmax() 返回最大值第一次出现的索引。
2	idxmin() 返回最小值第一次出现的索引。
3	value_counts() 返回一个 Series，其中包含唯一值的计数。
4	unique() 返回 Series 元素中唯一值的数组。

这些函数提供 Series 数据的各种统计指标：

序号	方法和描述
1	nunique() 返回给定对象中唯一值的个数。
2	std() 返回 Series 值的标准差。
3	abs() 返回一个 Series/DataFrame，其中包含每个元素的绝对数值。
4	clip() 在输入阈值处修剪值，将超出边界的返回值设置为边界值。
5	round() 将给定对象中的每个值四舍五入到指定的小数位数。
6	prod() 返回给定对象元素的乘积。
7	describe() 生成给定对象的描述性统计信息。

打印页面