- Python Pandas 教程
- Python Pandas - 首页
- Python Pandas - 简介
- Python Pandas - 环境设置
- Python Pandas - 基础
- Python Pandas - 数据结构介绍
- Python Pandas - 索引对象
- Python Pandas - Panel
- Python Pandas - 基本功能
- Python Pandas - 索引和数据选择
- Python Pandas - Series
- Python Pandas - Series
- Python Pandas - Series 对象切片
- Python Pandas - Series 对象的属性
- Python Pandas - Series 对象的算术运算
- Python Pandas - 将 Series 转换为其他对象
- Python Pandas - DataFrame
- Python Pandas - DataFrame
- Python Pandas - 访问 DataFrame
- Python Pandas - DataFrame 对象切片
- Python Pandas - 修改 DataFrame
- Python Pandas - 从 DataFrame 中删除行
- Python Pandas - DataFrame 的算术运算
- Python Pandas - I/O 工具
- Python Pandas - I/O 工具
- Python Pandas - 使用 CSV 格式
- Python Pandas - 读取和写入 JSON 文件
- Python Pandas - 从 Excel 文件读取数据
- Python Pandas - 将数据写入 Excel 文件
- Python Pandas - 使用 HTML 数据
- Python Pandas - 剪贴板
- Python Pandas - 使用 HDF5 格式
- Python Pandas - 与 SQL 的比较
- Python Pandas - 数据处理
- Python Pandas - 排序
- Python Pandas - 重新索引
- Python Pandas - 迭代
- Python Pandas - 连接
- Python Pandas - 统计函数
- Python Pandas - 描述性统计
- Python Pandas - 使用文本数据
- Python Pandas - 函数应用
- Python Pandas - 选项和自定义
- Python Pandas - 窗口函数
- Python Pandas - 聚合
- Python Pandas - 合并/连接
- Python Pandas - 多级索引
- Python Pandas - 多级索引基础
- Python Pandas - 使用多级索引进行索引
- Python Pandas - 使用多级索引进行高级重新索引
- Python Pandas - 重命名多级索引标签
- Python Pandas - 对多级索引进行排序
- Python Pandas - 二元运算
- Python Pandas - 二元比较运算
- Python Pandas - 布尔索引
- Python Pandas - 布尔掩码
- Python Pandas - 数据重塑和透视
- Python Pandas - 透视表
- Python Pandas - 堆叠和取消堆叠
- Python Pandas - 熔化
- Python Pandas - 计算虚拟变量
- Python Pandas - 分类数据
- Python Pandas - 分类数据
- Python Pandas - 分类数据的排序和排列
- Python Pandas - 比较分类数据
- Python Pandas - 处理缺失数据
- Python Pandas - 缺失数据
- Python Pandas - 填充缺失数据
- Python Pandas - 缺失值的插值
- Python Pandas - 删除缺失数据
- Python Pandas - 使用缺失数据进行计算
- Python Pandas - 处理重复项
- Python Pandas - 重复数据
- Python Pandas - 计数和检索唯一元素
- Python Pandas - 重复标签
- Python Pandas - 分组和聚合
- Python Pandas - GroupBy
- Python Pandas - 时间序列数据
- Python Pandas - 日期功能
- Python Pandas - Timedelta
- Python Pandas - 稀疏数据结构
- Python Pandas - 稀疏数据
- Python Pandas - 可视化
- Python Pandas - 可视化
- Python Pandas - 其他概念
- Python Pandas - 警告和陷阱
- Python Pandas 有用资源
- Python Pandas - 快速指南
- Python Pandas - 有用资源
- Python Pandas - 讨论
Python Pandas - 描述性统计
描述性统计是数据分析中必不可少的工具,它提供了一种总结和理解数据的方法。在 Python 的 Pandas 库中,有许多方法可用于计算 Series 和 DataFrame 对象的描述性统计。
这些方法提供了各种聚合函数,如 sum()、mean() 和 quantile(),以及诸如 cumsum() 和 cumprod() 等运算,它们返回相同大小的对象。
在本教程中,我们将讨论 Pandas 中一些最常用的描述性统计函数,这些函数应用于 Series 和 DataFrame 对象。根据其功能,这些方法可以分为不同的类别,例如聚合函数、累积函数等等。
聚合函数
聚合函数从一系列数据中生成单个值,从而对数据集进行简洁的总结。以下是一些主要的聚合函数:
| 序号 | 方法和描述 |
|---|---|
| 1 |
mean() 返回沿请求轴的值的平均值。 |
| 2 |
sum() 返回沿请求轴的值的总和。 |
| 3 |
median() 返回值的算术中位数。 |
| 4 |
min() 返回沿请求轴的值的最小值。 |
| 5 |
max() 返回沿请求轴的值的最大值。 |
| 6 |
count() 返回给定对象中非 NA/空观察值的个数。 |
| 7 |
quantile() 返回给定分位数的值。 |
| 8 |
mode() 返回沿所选轴/Series 的每个元素的众数。 |
| 9 |
var() 返回沿请求轴的无偏方差。 |
| 10 |
kurt() 返回沿请求轴的无偏峰度。 |
| 11 |
skew() 返回沿请求轴的无偏偏度。 |
| 12 |
sem() 返回沿请求轴的无偏偏度。 |
| 13 |
corr() 计算与其他对象的关联,排除缺失值。 |
| 14 |
cov() 计算两个对象之间的协方差,排除 NA/空值。 |
| 15 |
autocorr() 计算滞后 N 自相关。 |
累积函数
累积函数提供运行总计或乘积,并保持与输入数据相同的形状。这些在时间序列分析或理解趋势方面非常有用:
| 序号 | 方法和描述 |
|---|---|
| 1 |
cumsum() 返回 DataFrame 或 Series 轴上的累积和。 |
| 2 |
cumprod() 返回 DataFrame 或 Series 轴上的累积积。 |
| 3 |
cummax() 返回 DataFrame 或 Series 轴上的累积最大值。 |
| 4 |
cummin() 返回 DataFrame 或 Series 轴上的累积最小值。 |
布尔函数
布尔函数根据 Series 中的逻辑运算返回布尔值:
| 序号 | 方法和描述 |
|---|---|
| 1 |
all() 如果所有元素都为 True,则返回 True,可能沿某个轴。 |
| 2 |
any() 如果任何元素都为 True,则返回 True,可能沿某个轴。 |
| 3 |
between() 如果元素在左边界和右边界之间,则为每个元素返回 True。 |
变换函数
变换函数对 Series 中的每个元素应用数学运算,返回转换后的 Series:
| 序号 | 方法和描述 |
|---|---|
| 1 |
diff() 计算对象中元素之间的差值,在指定数量的周期内。 |
| 2 |
pct_change() 计算当前元素和先前元素之间的百分比变化。 |
| 3 |
rank() 计算给定对象中值的秩。 |
索引相关函数
这些函数与 Series 索引相关,并提供操纵和分析索引标签的方法:
| 序号 | 方法和描述 |
|---|---|
| 1 |
idxmax() 返回最大值第一次出现的索引。 |
| 2 |
idxmin() 返回最小值第一次出现的索引。 |
| 3 |
value_counts() 返回一个 Series,其中包含唯一值的计数。 |
| 4 |
unique() 返回 Series 元素中唯一值的数组。 |
统计函数
这些函数提供 Series 数据的各种统计指标:
| 序号 | 方法和描述 |
|---|---|
| 1 |
nunique() 返回给定对象中唯一值的个数。 |
| 2 |
std() 返回 Series 值的标准差。 |
| 3 |
abs() 返回一个 Series/DataFrame,其中包含每个元素的绝对数值。 |
| 4 |
clip() 在输入阈值处修剪值,将超出边界的返回值设置为边界值。 |
| 5 |
round() 将给定对象中的每个值四舍五入到指定的小数位数。 |
| 6 |
prod() 返回给定对象元素的乘积。 |
| 7 |
describe() 生成给定对象的描述性统计信息。 |