Python Pandas 快速指南

Python Pandas - 简介

Pandas 是一个开源的 Python 库，它使用强大的数据结构提供高性能的数据操作和分析工具。Pandas 的名称来源于面板数据——计量经济学中的多维数据。

2008 年，开发者 Wes McKinney 在需要一个高性能、灵活的工具来分析数据时开始开发 pandas。

在 Pandas 之前，Python 主要用于数据清洗和准备。它对数据分析的贡献非常小。Pandas解决了这个问题。使用 Pandas，我们可以完成数据处理和分析中的五个典型步骤，无论数据来源如何——加载、准备、操作、建模和分析。

Python 与 Pandas 广泛应用于包括金融、经济学、统计学、分析学等在内的学术和商业领域。

Pandas 的关键特性

快速高效的 DataFrame 对象，具有默认和自定义索引。
用于将数据从不同文件格式加载到内存中数据对象的工具。
数据对齐和缺失数据的集成处理。
数据集的重塑和透视。
基于标签的大型数据集的切片、索引和子集选择。
可以删除或插入数据结构中的列。
对数据进行分组以进行聚合和转换。
高性能的数据合并和连接。
时间序列功能。

Python Pandas - 环境设置

标准 Python 发行版不包含 Pandas 模块。一个轻量级的替代方案是使用流行的 Python 包安装程序 **pip** 安装 NumPy。

pip install pandas

如果您安装 Anaconda Python 包，Pandas 将默认安装如下：

Windows

**Anaconda** (来自 https://www.continuum.io) 是一个免费的 SciPy 栈 Python 发行版。它也适用于 Linux 和 Mac。
**Canopy** (https://www.enthought.com/products/canopy/) 提供免费和商业发行版，包含适用于 Windows、Linux 和 Mac 的完整 SciPy 栈。
**Python(x,y)** 是一个免费的 Python 发行版，包含 SciPy 栈和 Spyder IDE，适用于 Windows 操作系统。（可从 http://python-xy.github.io/ 下载）

Linux

各个 Linux 发行版的包管理器用于安装 SciPy 栈中的一个或多个包。

对于 Ubuntu 用户

sudo apt-get install python-numpy python-scipy python-matplotlibipythonipythonnotebook
python-pandas python-sympy python-nose

对于 Fedora 用户

sudo yum install numpyscipy python-matplotlibipython python-pandas sympy
python-nose atlas-devel

数据结构介绍

Pandas 处理以下三种数据结构：

Series
DataFrame
Panel

这些数据结构构建在 Numpy 数组之上，这意味着它们速度很快。

维度和描述

理解这些数据结构的最佳方法是，更高维的数据结构是其低维数据结构的容器。例如，DataFrame 是 Series 的容器，Panel 是 DataFrame 的容器。

数据结构	维度	描述
Series	1	一维带标签的同质数组，大小不可变。
DataFrame	2	一般的二维带标签的、大小可变的表格结构，可能包含异构类型的列。
Panel	3	一般的三维带标签的、大小可变的数组。

构建和处理两个或多个维度的数组是一项繁琐的任务，用户需要在编写函数时考虑数据集的方向。但是使用 Pandas 数据结构，可以减少用户的脑力负担。

例如，对于表格数据 (DataFrame)，从语义上讲，考虑 **索引**（行）和 **列** 比考虑轴 0 和轴 1更有帮助。

可变性

所有 Pandas 数据结构的值都是可变的（可以更改），除了 Series 之外，所有数据结构的大小都是可变的。Series 的大小是不可变的。

**注意** - DataFrame 广泛使用，并且是最重要的数据结构之一。Panel 的使用要少得多。

Series

Series 是一种一维类似数组的结构，包含同质数据。例如，以下 Series 是整数 10、23、56……的集合。

关键点

同质数据
大小不可变
数据值可变

DataFrame

DataFrame 是一个二维数组，包含异构数据。例如：

姓名	年龄	性别	评分
Steve	32	男	3.45
Lia	28	女	4.6
Vin	45	男	3.9
Katie	38	女	2.78

该表显示了一个组织销售团队的数据及其整体绩效评分。数据以行和列表示。每一列代表一个属性，每一行代表一个人。

列的数据类型

四列的数据类型如下：

列	类型
姓名	字符串
年龄	整数
性别	字符串
评分	浮点数

关键点

异构数据
大小可变
数据可变

Panel

Panel 是一种三维数据结构，包含异构数据。很难用图形表示来表示 Panel。但是，Panel 可以被说明为 DataFrame 的容器。

关键点

异构数据
大小可变
数据可变

Python Pandas - Series

Series 是一种一维带标签的数组，能够保存任何类型的数据（整数、字符串、浮点数、Python 对象等）。轴标签统称为索引。

pandas.Series

可以使用以下构造函数创建 pandas Series：

pandas.Series( data, index, dtype, copy)

构造函数的参数如下：

序号	参数和描述
1	data data 可以采用各种形式，例如 ndarray、列表、常量
2	index 索引值必须唯一且可哈希，与 data 长度相同。如果没有传递索引，则默认为 np.arange(n)。
3	dtype dtype 用于数据类型。如果为 None，则将推断数据类型
4	copy 复制数据。默认为 False

可以使用各种输入创建 Series，例如：

数组
字典
标量值或常量

创建空 Series

可以创建的基本 Series 是空 Series。

序号	参数和描述
1	data data采用多种形式，例如ndarray、series、map、列表、dict、常量以及另一个DataFrame。
2	index 对于行标签，用于结果框架的索引是可选的，如果没有传递索引，则默认为np.arange(n)。
3	列对于列标签，可选的默认语法是- np.arange(n)。只有在没有传递索引的情况下才为真。
4	dtype 每列的数据类型。
5	copy 此命令（或任何它是什么）用于复制数据，如果默认值为False。

参数	描述
data	数据采用多种形式，例如ndarray、series、map、列表、dict、常量以及另一个DataFrame
items	axis=0
major_axis	axis=1
minor_axis	axis=2
dtype	每列的数据类型
copy	复制数据。默认值，false

序号	属性或方法和描述
1	axes 返回行轴标签的列表
2	dtype 返回对象的dtype。
3	empty 如果Series为空，则返回True。
4	ndim 返回底层数据的维度数，定义为1。
5	size 返回底层数据中的元素数。
6	values 将Series作为ndarray返回。
7	head() 返回前n行。
8	tail() 返回最后n行。

序号	属性或方法和描述
1	T 转置行和列。
2	axes 返回一个列表，其中仅包含行轴标签和列轴标签作为成员。
3	dtypes 返回此对象中的dtypes。
4	empty 如果NDFrame完全为空[没有项目]；如果任何轴的长度为0，则为True。
5	ndim 轴/数组维数。
6	shape 返回表示DataFrame维度的元组。
7	size NDFrame中的元素数。
8	values NDFrame的NumPy表示。
9	head() 返回前n行。
10	tail() 返回最后n行。

序号	函数	描述
1	count()	非空观察值的个数
2	sum()	值的总和
3	mean()	值的平均值
4	median()	值的中位数
5	mode()	值的众数
6	std()	值的标准差
7	min()	最小值
8	max()	最大值
9	abs()	绝对值
10	prod()	值的乘积
11	cumsum()	累积和
12	cumprod()	累积乘积

序号	函数与说明
1	lower() 将 Series/Index 中的字符串转换为小写。
2	upper() 将 Series/Index 中的字符串转换为大写。
3	len() 计算字符串长度。
4	strip() 用于去除Series/索引中每个字符串两侧的空格（包括换行符）。
5	split(' ') 使用给定的模式分割每个字符串。
6	cat(sep=' ') 使用给定的分隔符连接Series/索引元素。
7	get_dummies() 返回包含独热编码值的DataFrame。
8	contains(pattern) 如果元素包含子字符串，则为每个元素返回布尔值True，否则返回False。
9	replace(a,b) 将值a替换为值b。
10	repeat(value) 将每个元素重复指定次数。
11	count(pattern) 返回每个元素中模式出现的次数。
12	startswith(pattern) 如果Series/索引中的元素以该模式开头，则返回True。
13	endswith(pattern) 如果Series/索引中的元素以该模式结尾，则返回True。
14	find(pattern) 返回模式第一次出现的第一个位置。
15	findall(pattern) 返回模式所有出现位置的列表。
16	swapcase 交换大小写（小写变大写，大写变小写）。
17	islower() 检查Series/索引中每个字符串中的所有字符是否都小写。返回布尔值。
18	isupper() 检查Series/索引中每个字符串中的所有字符是否都大写。返回布尔值。
19	isnumeric() 检查Series/索引中每个字符串中的所有字符是否都是数字。返回布尔值。

序号	参数和描述
1	display.max_rows 显示要显示的最大行数
2	2 display.max_columns 显示要显示的最大列数
3	display.expand_frame_repr 显示DataFrames以扩展页面
4	display.max_colwidth 显示最大列宽
5	display.precision 显示小数的精度

对象	索引器	返回类型
Series	s.loc[indexer]	标量值
DataFrame	df.loc[row_index,col_index]	Series对象
Panel	p.loc[item_index,major_index, minor_index]	p.loc[item_index,major_index, minor_index]

合并方法	SQL等效项	描述
left	LEFT OUTER JOIN	使用左对象的键
right	RIGHT OUTER JOIN	使用右对象的键
outer	FULL OUTER JOIN	使用键的并集
inner	INNER JOIN	使用键的交集

别名	描述	别名	描述
B	工作日频率	BQS	工作季度开始频率
D	日历日频率	A	年度(年)末频率
W	每周频率	BA	工作年度末频率
M	月末频率	BAS	工作年度开始频率
SM	半月末频率	BH	工作小时频率
BM	工作月末频率	H	每小时频率
MS	月开始频率	T, min	分钟频率
SMS	半月开始频率	S	秒频率
BMS	工作月开始频率	L, ms	毫秒
Q	季度末频率	U, us	微秒
BQ	工作季度末频率	N	纳秒
QS	季度开始频率

Python Pandas 快速指南

Python Pandas - 简介

Pandas 的关键特性

Python Pandas - 环境设置

Windows

Linux

数据结构介绍

维度和描述

可变性

Series

关键点

DataFrame

列的数据类型

关键点

Panel

关键点

Python Pandas - Series

pandas.Series

创建空 Series

示例

从 ndarray 创建 Series

示例 1

示例 2

从字典创建 Series

示例 1

示例 2

从标量创建 Series

使用位置从 Series 访问数据

示例 1

示例 2

示例3

使用标签（索引）检索数据

示例 1

示例 2

示例3

Python Pandas - DataFrame

DataFrame的特征

结构

pandas.DataFrame

创建DataFrame

创建空DataFrame

示例

从列表创建DataFrame

示例 1

示例 2

示例3

从ndarray/列表的字典创建DataFrame

示例 1

示例 2

从字典列表创建DataFrame

示例 1

示例 2

示例3

从Series的字典创建DataFrame

示例

列选择

示例

列添加

示例

列删除

示例

行选择、添加和删除

按标签选择

按整数位置选择

切片行

添加行

删除行

Python Pandas - Panel

pandas.Panel()

创建面板

从3D ndarray

从DataFrame对象的字典

创建空面板

从面板中选择数据

使用Items

使用major_axis

使用minor_axis

Python Pandas - 基本功能

Series基本功能

示例