- Python数据科学教程
- Python数据科学 - 首页
- Python数据科学 - 快速入门
- Python数据科学 - 环境设置
- Python数据科学 - Pandas
- Python数据科学 - Numpy
- Python数据科学 - SciPy
- Python数据科学 - Matplotlib
- Python数据处理
- Python数据操作
- Python数据清洗
- Python处理CSV数据
- Python处理JSON数据
- Python处理XLS数据
- Python关系数据库
- Python NoSQL数据库
- Python日期和时间
- Python数据整理
- Python数据聚合
- Python读取HTML页面
- Python处理非结构化数据
- Python词法分析
- Python词干提取和词形还原
- Python数据可视化
- Python图表属性
- Python图表样式
- Python箱线图
- Python热力图
- Python散点图
- Python气泡图
- Python 3D图表
- Python时间序列
- Python地理数据
- Python图数据
Python数据科学 - Pandas
什么是Pandas?
Pandas是一个开源的Python库,用于通过其强大的数据结构进行高性能数据处理和数据分析。Python结合Pandas被广泛应用于各种学术和商业领域,包括金融、经济、统计、广告、网络分析等等。使用Pandas,无论数据来源如何,我们都可以完成数据处理和分析的五个典型步骤——加载、组织、操作、建模和分析数据。
以下是Pandas的一些重要特性,这些特性专门用于数据处理和数据分析工作。
Pandas的关键特性
- 具有默认和自定义索引的快速高效的DataFrame对象。
- 用于将数据从不同文件格式加载到内存中数据对象的工具。
- 数据对齐和缺失数据的集成处理。
- 数据集的重塑和透视。
- 基于标签的大型数据集的切片、索引和子集选择。
- 可以删除或插入数据结构中的列。
- 按组对数据进行聚合和转换。
- 高性能的数据合并和连接。
- 时间序列功能。
Pandas处理以下三种数据结构:
- Series(序列)
- DataFrame(数据框)
这些数据结构构建在Numpy数组之上,使其快速高效。
维度和描述
理解这些数据结构的最佳方法是,更高维的数据结构是其低维数据结构的容器。例如,DataFrame是Series的容器,Panel是DataFrame的容器。
数据结构 | 维度 | 描述 |
---|---|---|
Series(序列) | 1 | 一维带标签的同质数组,大小不可变。 |
数据框 | 2 | 通用的二维带标签,大小可变的表格结构,可能包含异构类型的列。 |
DataFrame被广泛使用,它是最重要的数据结构。
Series(序列)
Series是一种一维类似数组的结构,包含同质数据。例如,以下序列是整数10、23、56……的集合。
10 | 23 | 56 | 17 | 52 | 61 | 73 | 90 | 26 | 72 |
Series的关键点
- 同质数据
- 大小不可变
- 数据值可变
DataFrame(数据框)
DataFrame是一个二维数组,包含异构数据。例如:
姓名 | 年龄 | 性别 | 评分 |
---|---|---|---|
史蒂夫 | 32 | 男 | 3.45 |
莉娅 | 28 | 女 | 4.6 |
文 | 45 | 男 | 3.9 |
凯蒂 | 38 | 女 | 2.78 |
该表显示了一个组织销售团队的数据及其整体绩效评分。数据以行和列表示。每列代表一个属性,每行代表一个人。
列的数据类型
四列的数据类型如下:
列 | 类型 |
---|---|
姓名 | 字符串 |
年龄 | 整数 |
性别 | 字符串 |
评分 | 浮点数 |
DataFrame的关键点
- 异构数据
- 大小可变
- 数据可变
我们将在接下来的章节中看到许多关于在数据科学工作中使用Python的pandas库的例子。
广告