密度图或 KDE 图的目的是什么?


密度图

密度图,也称为核密度估计 (KDE) 图,是一种图形显示数据的方式,它显示了数据的概率密度函数 (PDF)。它用于可视化数据的分布并识别数据中的模式和趋势。

密度图的目的是为您提供数据底层分布的视觉表示。它可以帮助您理解数据的形状和分布,并识别任何异常值或离群值。它还可以用于比较多个变量或组的分布。

由于它们不受箱数的影响,因此密度图比直方图更具优势,因为它们更擅长识别分布的形状。例如,密度图包括正态分布曲线。

应用与解释

应用与解释:假设我们有一个包含 1000 位信用卡用户年龄的数据集。我们对年龄分布是如何分布感兴趣。

我们可以看到,下图中的峰值略高于 45。如果(桶的宽度为五年),我们将在直方图中发现值的集中在 45-50 范围内。但是,此密度图为我们提供了更精确的位置。还提供了连续分布的视图。

如何解读密度曲线

借助密度曲线,可以快速直观地了解特定数据集中值的分布,这些曲线存在于各种大小和形式中。它们在帮助我们可视化以下方面特别有用:

峰值数量

通过使用密度曲线,我们可以快速确定特定分布中“峰值”的数量。因为以上案例中的每个分布只有一个峰值,所以我们将这些分布归类为单峰分布。

但是,某些分布(称为双峰分布)可以有两个峰值。此外,有时可能存在具有两个或多个峰值的多峰分布。我们可以通过绘制数据集的密度曲线来快速确定分布中的峰值数量。

偏度

偏度是一个用于定义分布对称性的术语。我们可以从密度曲线中立即确定图形是左偏、右偏还是没有偏度。

均值和中位数的位置

根据密度曲线的偏度,我们可以快速确定特定分布中均值或中位数哪个更大。更具体地说

  • 当密度曲线左偏时,均值小于中位数。

  • 当密度曲线右偏时,均值大于中位数。

  • 当密度曲线没有偏度时,均值和中位数相同。

密度曲线的特性

密度曲线的特性如下:

  • 每次曲线下的面积加起来都等于 100%。

  • 曲线永远不会偏离 x 轴。

  • 当您为各种分布生成或评估密度曲线时,请记住这两个事实。

Kde 图

密度图,也称为核密度估计 (KDE) 图,是一种图形显示数据的方式,它显示了数据的概率密度函数 (PDF)。它用于可视化数据的分布并识别数据中的模式和趋势。

密度图的目的是为您提供数据底层分布的视觉表示。它可以帮助您理解数据的形状和分布,并识别任何异常值或离群值。它还可以用于比较多个变量或组的分布。

无论选择什么间隔长度,直方图(一叠矩形)总是看起来波浪起伏(再次想想砖块)。我们有时希望计算更平滑的估计,因为它可能更准确。我们可以稍微改变我们的策略来解决这个问题。

直方图技术将每个数据点转换为具有定义面积的矩形,然后将其放置在对应数据点的“附近”。如果我们可以在每个数据点上“倒一堆沙子”,然后观察沙子的堆积方式,而不是使用矩形,会怎么样呢?

结论

总之,密度图或 KDE 图是一种图形显示数据的方式,它显示了数据的概率密度函数。它用于可视化数据的分布并识别数据中的模式和趋势。密度图的目的是为您提供数据底层分布的视觉表示,并帮助您理解数据的形状和分布。它可以用于比较多个变量或组的分布,以及识别数据中的任何异常值或离群值。

更新于:2023 年 5 月 5 日

2K+ 次查看

开启您的 职业生涯

通过完成课程获得认证

开始学习
广告