使用Pandas进行数据分析活动
Pandas是数据科学领域中非常流行的工具。它广泛用于分析数据活动。
数据分析是指为了找到与企业决策相关的相关信息而对数据进行清洗、转换和建模的过程。数据分析的目标是从数据中提取可用的信息,并根据该分析做出决策。
在本文中,我们将学习Pandas在数据科学中的作用。
Pandas库提供Python或C后端源代码。
可以使用两种策略来完成数据分析:
Series(序列)
DataFrames(数据框)
Pandas Series(序列)
Pandas定义了一个名为Series的数组,可用于存储任何类型的数据。它是一个网格的单个列或一维数组。序列是值的集合,每个值都与一个独特的标签相关联,并且每个行都具有唯一的索引值。创建序列时,这些独特的索引值会动态定义。
创建新的序列
创建一个空序列:
import pandas as pd s=pd.Series()
让我们看看其他示例。
案例1:只有标量值
import pandas as pd array= [9,6,3,2,8,5] seri= pd.Series(array) print(seri)
输出
0 9 1 6 2 3 3 2 4 8 5 5 dtype: int64
使用罗马数字索引打印序列:
index=['i' , 'ii', 'iii', 'iv', 'v', 'vi'] seri1= pd.Series(array, index) print(seri1)
输出
i 9 ii 6 iii 3 iv 2 v 8 vi 5 dtype: int64
案例2:字典值
import pandas as pd dict= {'i' : 1 , 'j': 2, 'k': 3, 'l': 4} s= pd.Series(dict) print(s)
输出
i 1 j 2 k 3 l 4 dtype: int64
案例3:多维数组
import pandas as pd array= [[1,2], [3,4,5], [6,7,8]] s=pd.Series(array) print(s)
输出
0 [1, 2] 1 [3, 4, 5] 2 [6, 7, 8] dtype: object
Pandas DataFrame(数据框)
Pandas DataFrame是由行和列组成的二维数据结构。以下关键Pandas结构由一系列序列组成,是Excel工作表上的多维表。它简化了表格数据,其中每一行代表一个观测值,每一列代表一个变量。
这是一个展示DataFrame功能的示例。这在下面的代码片段中可以看到。
import pandas as pd data= { "calories": [100,200,300], "duration" :[20,30,35] } df=pd.DataFrame(data) print(df)
输出
calories duration 0 100 20 1 200 30 2 300 35
让我们看看其他示例。
案例1:标量值
import pandas as pd dic1= {'i' : 1 , 'j': 2, 'k': 3, 'l': 4} dic2= {'i' :5 , 'j': 6, 'k': 7, 'l': 8, 'm' :9} instance= {'first' : dic1, 'second': dic2} df= pd.DataFrame(instance) print(df)
输出
first second i 1.0 5 j 2.0 6 k 3.0 7 l 4.0 8 m NaN 9
案例2:序列数据
import pandas as pd s1=pd.Series([1,2,3,4,5]) s2=pd.Series(['a','b','c']) s3=pd.Series(['A','B','C','D']) instance= {'first' : s1, 'second': s2, 'third': s3} df= pd.DataFrame(instance) print(df)
输出
first second third 0 1 a A 1 2 b B 2 3 c C 3 4 NaN D 4 5 NaN NaN
案例3:二维NumPy数组
构建DataFrame时,二维数组的维度必须保持不变。
import pandas as pd array1= [[1,2], [3,4,5], [6,7,8]] array2= [['a','b'], ['c','d','e'], ['f','g','h']] instance= {'first' :array1, 'second': array2} df= pd.DataFrame(instance) print(df)
输出
first second 0 [1, 2] [a, b] 1 [3, 4, 5] [c, d, e] 2 [6, 7, 8] [f, g, h]
Pandas在数据科学和机器学习中的应用
数据收集后,存储在多个数据库中,可以访问这些数据库用于不同的数据科学活动和项目。一个包含数据科学的项目有两个阶段:
数据清洗阶段
探索性数据分析
这些阶段为您提供了可以交互使用的高质量数据集。基于此过滤后的数据集,可以创建一个机器学习模型。Pandas库提供了广泛的功能,让您可以从第一次获取原始数据到提供高质量数据以进行进一步测试,执行所有操作。
数据分析的学习成果为开发人员选择深入研究和机器学习模型的适当路径奠定了基础。
比较使用各种Pandas操作和过程创建的多个子集可以是统计分析的一部分。
我们已经看到了使用Pandas进行数据操作和数据分析的示例。让我们更仔细地研究如何处理机器学习的数据。
Pandas如何加快ML模型的创建速度
每个机器学习项目都需要大量的时间投入。这是因为它使用了多种技术,例如在创建ML模型之前研究基本趋势和模式。Python Pandas包提供了各种用于操作和分析数据的工具。
Pandas对于创建ML模型至关重要。以下是一些过程。
导入数据
Pandas库中提供了各种工具来从各种来源读取数据。CSV文件可以用作数据集函数,它提供了广泛的数据处理选项。以下是导入数据的代码部分。
定位缺失数据
Pandas提供了一个工具来确定处理缺失数据的方法有多少种。首先,您可以使用ISNA()方法检查数据并识别任何缺失值。此函数检查每一行和每一列的值。如果值不存在,则返回True,否则返回False。
数据可视化
可以通过在Pandas中绘图有效地查看数据。在DataFrame中,可以使用plt.plot()函数。在您可以绘图之前,必须导入Matplotlib。此函数支持多种数据可视化形式,例如直方图、线、箱线图、散点图和条形图。与数据聚合工具结合使用时,绘图功能非常有用。
特征转换
Pandas提供各种特征转换函数。由于大多数常用的机器学习库只接受数值数据,因此必须转换非数值特征。当将该函数应用于数据列时,Pandas中可用的get_dummies函数将每个不同的值转换为二进制列。
结论
Pandas是一个流行的数据科学和数据分析工具,许多专业人员和数据科学家都在使用它。由于Pandas DataFrame,他们可以处理数据并创建机器学习模型。虽然学习曲线略微陡峭,但它极大地提高了数据操作的效率。