探索性数据分析 (EDA) - 类型和工具
介绍
探索性数据分析 (EDA) 是通过分析数据集来总结数据集的过程。它用于调查数据集并确定其特征。EDA 是许多数据科学或分析任务中的一个基本过程。
探索性数据分析的不同类型
EDA 主要分为两类
单变量探索性数据分析 – 在单变量数据分析中,我们使用一个变量或特征来确定数据集的特征。我们推导出仅关于一个特征或变量的数据关系和分布。在此类别中,我们可以自由使用原始数据或遵循图形方法。
在单变量原始数据方法或非图形方法中,我们根据一个变量确定数据的分布并研究来自总体的一个样本。此外,我们还可以包括异常值去除,这是此过程的一部分。
集中趋势的度量 - 集中趋势试图借助表示中心值的单个值来总结整个总体或数据集。
平均值 - 它是所有观测值的平均值。即所有观测值的总和除以观测值的个数。
中位数 - 在将观测值或分布按升序或降序排列后,它是观测值的中值。
众数 - 它是出现频率最高的观测值。
让我们了解一些非图形方法。
三种度量是平均值、中位数和众数。
方差 - 它表示数据围绕中间值或平均值的分布。它帮助我们收集有关中心趋势(如平均值)的观测信息。它计算为所有观测值平方和的平均值。
偏度 - 它衡量观测值的对称性。分布可以是左偏或右偏,在任一情况下都形成一条长尾。
峰度 - 它衡量特定分布相对于正态分布的尾部程度。中等峰度称为正态分布,低峰度称为低峰分布。
在单变量图形方法中,我们可以使用任何绘图库生成直方图、箱线图、分位数-分位数图、小提琴图等图形进行可视化。数据科学家经常使用可视化来发现异常值和模式。图形方法是一种更主观的方法来进行 EDA。这些是一些用于执行单变量分析的图形工具。
直方图 - 它们表示特定值范围的实际计数。它以矩形的形式显示数据的频率,也称为条形图表示,可以是垂直的或水平的。
箱线图 - 也称为箱须图。它们使用线条和框来显示来自一个或多个组的数据分布。中心线表示中值。扩展线捕获其余数据。它们之所以有用,是因为它们可以用来比较数据组和比较对称性。
Q-Q 图 - 要确定两个数据集是否来自相同或不同的分布,可以使用 Q-Q 图。
多变量探索性数据分析 - 在多变量分析中,我们使用多个变量来显示关系和可视化。它用于显示不同字段之间的交互。
多变量非图形(原始数据) - 例如对两个以上变量进行列表。ANOVA 测试也可以发挥重要作用。
多变量图形 - 在多变量统计的可视化分析中,可以使用以下图形。
散点图 - 它通过将数据绘制为点来显示两个变量之间的关系。此外,可以智能地使用颜色编码来根据第三个特征显示两个特征中组。
热力图 - 在这种可视化技术中,值用颜色表示,图例显示不同级别值的颜色。它是一个二维图形。
气泡图 - 在此图中,圆圈用于显示不同的值。图表上圆圈的半径与数据点的值成正比。
EDA 中使用的编程语言工具
R 和 Python 语言都可以用于执行 EDA。这些语言对于 EDA 非常强大,并提供了一些开箱即用的最佳工具。让我们看看这些语言的一些实用程序。
R 语言 - R 语言由 Ross Ihaka 和 Robert Gentleman 开发。R 是一种模块化编程语言,支持函数。它可以与用 C/C++ 编写的过程集成。R 有一些非常强大的数据分析和绘图工具,通常被研究人员、数据科学家、分析师等使用。
Python 语言 - Python 是一种高级语言。它可读且使用缩进分隔代码块。它支持多种功能,例如结构化和面向对象的编程、函数和范式。它是一种非常简单的语言,与其他编程语言相比,使用更少的代码行来执行特定任务。Python 有许多用于探索性数据分析和可视化的工具,例如 pandas、matplotlib、seaborn、dask 等。
结论
探索性数据分析是任何数据分析或数据科学任务的支柱。它提供了对数据特征的洞察,并使我们能够对数据做出有用且明智的决策。由于一些出色工具的可用性,如今 EDA 已不再是一项繁琐的任务,而是一个平滑的过程。