Python Pandas 处理哪种数据?


如果使用机器学习或数据科学等技术,就需要处理数据。数据是这些技术的基石。在现实环境中,处理数据是一个非常困难的过程,因为现实世界中的数据很杂乱。

使用 Python Pandas 包的主要优势在于,它具有许多处理数据的功能。众所周知,实时数据可以是任何形式,可以是字符、整数、浮点数、分类数据等等。

Pandas 最适合处理或操作表格数据,因为它有一个 DataFrame 对象,该对象具有更多功能。DataFrame 是一种二维数据结构,用于存储表格数据,这些数据可以是任何形式(整数、字符、浮点数、分类数据等等)。

示例

import pandas as pd
data = pd.read_csv('sales_data.csv')
data.dtypes

解释

使用 import 关键字导入了 Pandas 包,之后使用 read_csv 函数读取 CSV 文件。这里的 sales_data.csv 文件是我们的数据文件,该文件有 10 列,分别命名为客户编号、客户姓名、2016 年、2017 年、增长百分比、1 月份单位、月份、日期、年份、活跃。

每列都存储着不同类型的数据。为了分别获取每列的数据类型,这里我们使用了 dtype 属性。

输出

Customer Number   float64
Customer Name     object
2016              object
2017              object
Percent Growth    object
Jan Units         object
Month              int64
Day                int64
Year               int64
Active            object
dtype: object

上面的输出块表示输入数据集(sales_data.cvs)的列名和数据类型。有三列存储整数,一列存储浮点数,其余六列存储对象数据,也就是文本类型数据。

示例

df = pd.DataFrame({'datetime': [pd.Timestamp('20190210')],'boolean': True})

print(df)
print() # for providing space at output
print(df.dtypes)

解释

上面的代码块由两种数据类型创建,分别是 DateTime 和布尔数据类型。使用 pd.timestamp 创建了日期时间数据类型数据。

输出

datetime boolean
0 2019-02-10     True

datetime   datetime64[ns]
boolean bool
dtype: object

上面的输出块中有两个输出。第一个表示 DataFrame 对象 df 中存在的数据,第二个表示 DataFrame 对象的每一列的数据类型。

通过这些例子,我们可以看到 Pandas 如何以及处理哪种类型的数据。

更新于: 2021 年 11 月 18 日

332 次查看

开启您的 职业生涯

通过完成课程获得认证

开始学习
广告