数据科学中的Pairplot是什么?


数据的可视化表示称为数据可视化。由于 Python 包中专注于数据的出色生态系统,因此它对于数据分析至关重要。以简单易懂的方式总结和呈现大量数据也有助于理解数据,无论数据多么复杂,以及数据的价值。它还有助于有效且清晰地传递信息。

我们可以使用 Seaborn Pairplot 可视化数据集中变量之间的成对关系。将大量数据浓缩成一个图形,使数据具有良好的视觉表示并有助于我们理解数据。当我们探索并熟悉我们的数据集时,这一点至关重要。

在执行探索性数据分析 (EDA) 时,pairplot 可视化很有用。pairplot 使用提供的变量(变量可以是连续的或分类的)显示它们之间的关系。

绘制数据集中成对的关系。

seaborn 库的 Pairplot 模块提供了一个高级接口,用于创建视觉上吸引人和教育性的统计可视化。

导入库和数据

第一步是导入我们将使用的库。在本例中,我们的数据可视化框架将是 Seaborn,我们将使用 pandas 编程语言导入并保存我们的数据。

import seaborn as sns
import pandas as pd

Seaborn Pairplot 函数的语法

seaborn.pairplot(
   data,
   hue = None,
   hue_order = None,
   palette = None,
   vars = None,
   x_vars = None,
   y_vars = None,
   kind = 'scatter',
   diag_kind = 'auto',
   markers = None,
   height = 2.5,
   aspect = 1,
   corner = False,
   dropna = False,
   plot_kws = None,
   diag_kws = None,
   grid_kws = None,
   size = None
)

Pairplot 函数的参数

  • data − 根据将显示的可视化,data 参数接受数据。DataFrame、数组或数组列表可以表示值。

  • hue_order, order − hue order 或 order 参数确定绘图中使用的分类变量的顺序。字符串列表可以作为此参数的值使用。

  • scale − scale 选项使用比例缩放绘图。此属性的有用值为 area、count 和 width。

  • scale_hue − scale hue 选项接受一个布尔值,以指定比例是否在绘图上的所有小提琴中近似(对于 FALSE)或在主要分组变量的每个级别内(对于 TRUE)。

  • gridsize − gridsize 参数使用整数计算绘图的核密度。

  • inner − inner 选项允许用户指定小提琴图的内部点。此参数的选项为 box、point、quartile、stick 或 None。

  • orient − 用户可以使用 orient 选项选择绘图的方向。垂直或水平方向分别用字母“v”和“h”表示。

  • linewidth − linewidth 参数通过取浮点整数作为其值来确定绘图中使用的灰色线的宽度。

  • color − 用户可以使用 color 参数设置每个绘图数据项的颜色范围。此参数的值可以是 matplotlib 颜色。

  • palette − palette 参数用于指定将用于绘图每个级别的各种颜色阴影。

  • axe − axe 选项指定将构建绘图的轴。此参数的值可以是 matplotlib Axes。

示例 1

# importing the required libraries  
import seaborn as sbn  
import matplotlib.pyplot as plt  
# loading the dataset using the seaborn library  
mydata = sbn.load_dataset('penguins')  
# pairplot with the hue = gender parameter  
sbn.pairplot(mydata, hue = 'gender')  
# displaying the plot  
plt.show()  

输出

代码说明

在上面的示例中,我们导入了必要的库并使用了 Seaborn load dataset() 方法加载企鹅数据集以进行处理。然后使用 pairplot() 方法显示绘图,并将 hue 参数设置为“gender”值。最后,我们使用 Matplotlib show() 方法向查看者显示了绘图。因此成功创建了配对图。

示例 2

# importing the required libraries  
import seaborn as sbn  
import matplotlib.pyplot as plt  
# loading the dataset using the seaborn library  
mydata = sbn.load_dataset('tips')  
# pairplot with the kind = kde parameter  
sbn.pairplot(mydata, kind = 'kde')  
# displaying the plot  
plt.show()  

输出

代码说明

在上面的示例中,我们导入了必要的库并使用了 Seaborn load dataset() 方法加载企鹅数据集以进行处理。然后使用 pairplot() 方法显示绘图,并将 hue 参数设置为“gender”值。最后,我们使用 Matplotlib show() 方法向查看者显示了绘图。因此成功创建了配对图。

结论

Seaborn Pairplot 是一个用于数据可视化的出色工具,有助于我们熟悉我们的数据。在一个图形上,我们可以绘制大量数据,以便我们可以理解它并获得新的想法。一个肯定要包含在您的数据科学工具箱中的绘图。pair plot 是一个强大的工具,可以快速检查数据集中的分布和关系。通过 Pair Grid 类,Seaborn 提供了一种简单易用的默认方法来创建 pair plot,这些 plot 可以修改和扩展。数据分析项目中的很大一部分价值通常来自数据的简单显示,而不是花哨的机器学习。pair plot 是进行数据分析时一个极好的起点,因为它为我们提供了对数据的全面初始视图。

更新于: 2023年5月5日

528 次查看

开启您的职业生涯

通过完成课程获得认证

开始
广告