为什么我们在Python中使用pandas?
Pandas一直是数据科学和机器学习中最常用的工具之一,用于数据清洗和分析。
在这里,Pandas是处理这些现实世界中杂乱数据的最佳工具。Pandas是基于NumPy构建的开源Python包之一。
使用pandas处理数据非常快速有效,通过使用pandas Series和数据框,这两种pandas数据结构将帮助您以各种方式操作数据。
基于pandas中可用的功能,可以说pandas最适合处理数据。它可以处理缺失数据、清理数据,并支持多种文件格式。这意味着它可以读取或加载许多格式的数据,例如CSV、Excel、SQL等。
让我们来看一个例子,看看它如何读取CSV数据。
示例
data = pd.read_csv('world-happiness-report.csv') print(data.shape) data.head()
解释
在上面的代码中,变量data使用pandas包中提供的read_csv函数存储CSV数据,这是一个世界幸福报告(从Kaggle数据集下载)。data.shape用于给出列和行数。
输出
Country name year Life Ladder Log GDP per capita Social support \ 0 Afghanistan 2008 3.724 7.370 0.451 1 Afghanistan 2009 4.402 7.540 0.552 2 Afghanistan 2010 4.758 7.647 0.539 3 Afghanistan 2011 3.832 7.620 0.521 4 Afghanistan 2012 3.783 7.705 0.521 Healthy life expectancy at birth Freedom to make life choices Generosity \ 50.80 0.718 0.168 51.20 0.679 0.190 51.60 0.600 0.121 51.92 0.496 0.162 52.24 0.531 0.236 Perceptions of corruption Positive affect Negative affect 0.882 0.518 0.258 0.850 0.584 0.237 0.707 0.618 0.275 0.731 0.611 0.267 0.776 0.710 0.268
以上代码块显示了世界幸福报告数据集的前5行数据,可以使用pandas dataframe.head()函数显示。
还有许多其他功能可以帮助我们处理用于机器学习数据科学操作的大型数据。这些功能包括合并和连接数据集、可视化、分组、掩码,并且对于对数据集执行数学运算也非常有帮助。
让我们来看另一个例子,看看如何使用pandas创建输出文件。
示例
file = data.to_json('output_file.json')
解释
Data.to_json是pandas函数,用于基于我们的pandas数据框对象(data)创建JSON文件。
输出
生成的JSON文件将在我们的工作目录中创建,扩展名为.json,文件名是output_file(对于我们的上述示例)。
这些是我们需要Python pandas的一些原因。
广告