数据科学中的Pairplot是什么?
数据的可视化表示称为数据可视化。由于 Python 包中专注于数据的出色生态系统,因此它对于数据分析至关重要。以简单易懂的方式总结和呈现大量数据也有助于理解数据,无论数据多么复杂,以及数据的价值。它还有助于有效且清晰地传递信息。
我们可以使用 Seaborn Pairplot 可视化数据集中变量之间的成对关系。将大量数据浓缩成一个图形,使数据具有良好的视觉表示并有助于我们理解数据。当我们探索并熟悉我们的数据集时,这一点至关重要。
在执行探索性数据分析 (EDA) 时,pairplot 可视化很有用。pairplot 使用提供的变量(变量可以是连续的或分类的)显示它们之间的关系。
绘制数据集中成对的关系。
seaborn 库的 Pairplot 模块提供了一个高级接口,用于创建视觉上吸引人和教育性的统计可视化。
导入库和数据
第一步是导入我们将使用的库。在本例中,我们的数据可视化框架将是 Seaborn,我们将使用 pandas 编程语言导入并保存我们的数据。
import seaborn as sns import pandas as pd
Seaborn Pairplot 函数的语法
seaborn.pairplot( data, hue = None, hue_order = None, palette = None, vars = None, x_vars = None, y_vars = None, kind = 'scatter', diag_kind = 'auto', markers = None, height = 2.5, aspect = 1, corner = False, dropna = False, plot_kws = None, diag_kws = None, grid_kws = None, size = None )
Pairplot 函数的参数
data − 根据将显示的可视化,data 参数接受数据。DataFrame、数组或数组列表可以表示值。
hue_order, order − hue order 或 order 参数确定绘图中使用的分类变量的顺序。字符串列表可以作为此参数的值使用。
scale − scale 选项使用比例缩放绘图。此属性的有用值为 area、count 和 width。
scale_hue − scale hue 选项接受一个布尔值,以指定比例是否在绘图上的所有小提琴中近似(对于 FALSE)或在主要分组变量的每个级别内(对于 TRUE)。
gridsize − gridsize 参数使用整数计算绘图的核密度。
inner − inner 选项允许用户指定小提琴图的内部点。此参数的选项为 box、point、quartile、stick 或 None。
orient − 用户可以使用 orient 选项选择绘图的方向。垂直或水平方向分别用字母“v”和“h”表示。
linewidth − linewidth 参数通过取浮点整数作为其值来确定绘图中使用的灰色线的宽度。
color − 用户可以使用 color 参数设置每个绘图数据项的颜色范围。此参数的值可以是 matplotlib 颜色。
palette − palette 参数用于指定将用于绘图每个级别的各种颜色阴影。
axe − axe 选项指定将构建绘图的轴。此参数的值可以是 matplotlib Axes。
示例 1
# importing the required libraries import seaborn as sbn import matplotlib.pyplot as plt # loading the dataset using the seaborn library mydata = sbn.load_dataset('penguins') # pairplot with the hue = gender parameter sbn.pairplot(mydata, hue = 'gender') # displaying the plot plt.show()
输出
代码说明
在上面的示例中,我们导入了必要的库并使用了 Seaborn load dataset() 方法加载企鹅数据集以进行处理。然后使用 pairplot() 方法显示绘图,并将 hue 参数设置为“gender”值。最后,我们使用 Matplotlib show() 方法向查看者显示了绘图。因此成功创建了配对图。
示例 2
# importing the required libraries import seaborn as sbn import matplotlib.pyplot as plt # loading the dataset using the seaborn library mydata = sbn.load_dataset('tips') # pairplot with the kind = kde parameter sbn.pairplot(mydata, kind = 'kde') # displaying the plot plt.show()
输出
代码说明
在上面的示例中,我们导入了必要的库并使用了 Seaborn load dataset() 方法加载企鹅数据集以进行处理。然后使用 pairplot() 方法显示绘图,并将 hue 参数设置为“gender”值。最后,我们使用 Matplotlib show() 方法向查看者显示了绘图。因此成功创建了配对图。
结论
Seaborn Pairplot 是一个用于数据可视化的出色工具,有助于我们熟悉我们的数据。在一个图形上,我们可以绘制大量数据,以便我们可以理解它并获得新的想法。一个肯定要包含在您的数据科学工具箱中的绘图。pair plot 是一个强大的工具,可以快速检查数据集中的分布和关系。通过 Pair Grid 类,Seaborn 提供了一种简单易用的默认方法来创建 pair plot,这些 plot 可以修改和扩展。数据分析项目中的很大一部分价值通常来自数据的简单显示,而不是花哨的机器学习。pair plot 是进行数据分析时一个极好的起点,因为它为我们提供了对数据的全面初始视图。