Python pandas 包中的数据结构是什么?


数据结构是一种收集、组织和存储数据的方式,其格式使我们能够以有效的方式访问和修改数据。它是一组数据类型的集合。它为您提供了一种组织项目(值)的最佳方式,以节省内存。

python pandas 包以有效的方式处理数据,因为它具有两个强大的数据结构,称为 Series 和 DataFrames。

Series只不过是一个一维带标签的数组,它能够容纳任何数据类型。它可以存储整数值、字符串、浮点数等。Series 中的每个值都分配给一个标签(分配给一个索引),标签可以是整数值,也可以是名称表示。

示例

import pandas as pd
data = pd.Series([1,2,3,4,5])
print(data)

解释

Pandas Series 数据结构是使用一个包含 5 个元素的简单 python 列表定义的。通过使用 import 关键字,我们导入了 pandas 包,然后我们使用 pandas.Series 函数创建了 Series。

输出

0   1
1   2
2   3
3   4
4   5
dtype: int64

Series 的输出在上面的代码块中表示,我们可以观察到 pandas series 是一个一维对象,它存储同类数据,并且 Series 中的每个值都由一个标签表示。对于我们上面的示例,标签值为 0、1、2、3、4。

pandas 中的另一个数据结构是DataFrame,它是一个二维带标签的数据结构,用于以行和列的格式表示。每列中的数据可能具有不同的数据类型。DataFrame 的整体结构类似于电子表格或 SQL 表。与 Series 一样,DataFrame 行也用标签表示。

示例

import pandas as pd
df = pd.DataFrame([[2,3,4,5],[6,7,8,9]], columns=['a','b','c','d'])
print(df)

解释

在上面的示例中,我们使用列表的列表创建了一个简单的 pandas DataFrame,并且这里的列标签手动定义为 a、b、c、d。

输出

    a   b   c   d
0   2   3   4   5
1   6   7   8   9

pandas DataFrame 的输出可以在上面的输出块中看到,DataFrame 由 2 行 4 列创建,0、1 和 a、b、c、d 分别是行和列标签。

在 pandas 0.20.0 版本之前,有一个三维数据结构可用,该数据结构称为面板。在较新版本的 pandas 中,这些面板的三维数据表示为 MultiIndex DataFrame。

更新于: 2021年11月17日

627 次查看

启动您的 职业生涯

通过完成课程获得认证

开始
广告