Python数据科学 - Pandas



什么是Pandas?

Pandas是一个开源的Python库,用于通过其强大的数据结构进行高性能数据处理和数据分析。Python结合Pandas被广泛应用于各种学术和商业领域,包括金融、经济、统计、广告、网络分析等等。使用Pandas,无论数据来源如何,我们都可以完成数据处理和分析的五个典型步骤——加载、组织、操作、建模和分析数据。

以下是Pandas的一些重要特性,这些特性专门用于数据处理和数据分析工作。

Pandas的关键特性

  • 具有默认和自定义索引的快速高效的DataFrame对象。
  • 用于将数据从不同文件格式加载到内存中数据对象的工具。
  • 数据对齐和缺失数据的集成处理。
  • 数据集的重塑和透视。
  • 基于标签的大型数据集的切片、索引和子集选择。
  • 可以删除或插入数据结构中的列。
  • 按组对数据进行聚合和转换。
  • 高性能的数据合并和连接。
  • 时间序列功能。

Pandas处理以下三种数据结构:

  • Series(序列)
  • DataFrame(数据框)

这些数据结构构建在Numpy数组之上,使其快速高效。

维度和描述

理解这些数据结构的最佳方法是,更高维的数据结构是其低维数据结构的容器。例如,DataFrame是Series的容器,Panel是DataFrame的容器。

数据结构 维度 描述
Series(序列) 1 一维带标签的同质数组,大小不可变。
数据框 2 通用的二维带标签,大小可变的表格结构,可能包含异构类型的列。

DataFrame被广泛使用,它是最重要的数据结构。

Series(序列)

Series是一种一维类似数组的结构,包含同质数据。例如,以下序列是整数10、23、56……的集合。

10 23 56 17 52 61 73 90 26 72

Series的关键点

  • 同质数据
  • 大小不可变
  • 数据值可变

DataFrame(数据框)

DataFrame是一个二维数组,包含异构数据。例如:

姓名 年龄 性别 评分
史蒂夫 32 3.45
莉娅 28 4.6
45 3.9
凯蒂 38 2.78

该表显示了一个组织销售团队的数据及其整体绩效评分。数据以行和列表示。每列代表一个属性,每行代表一个人。

列的数据类型

四列的数据类型如下:

类型
姓名字符串
年龄整数
性别字符串
评分浮点数

DataFrame的关键点

  • 异构数据
  • 大小可变
  • 数据可变

我们将在接下来的章节中看到许多关于在数据科学工作中使用Python的pandas库的例子。

广告