统计学 - 数据模式



当数据模式以图形方式绘制时,它们非常有用。数据模式通常用中心、扩展、形状和其他异常属性等特征来描述。其他特殊的描述性标签是对称、钟形、偏斜等。

中心

从图形上看,分布的中心位于分布的中位数处。这样的图形图表显示几乎一半的观测值位于任一侧。每列的高度表示观测值的频率。

Center Data Pattern

扩展

分布的扩展是指数据的变化。如果观测值集覆盖的范围很广,则扩展越大。如果观测值集中在一个值附近,则扩展越小。

Spread Data Pattern

形状

可以使用以下特征来描述分布的形状。

  • 对称性 - 在对称分布中,图形可以以中心方式划分,使得每一半都是另一半的镜像。

    Symmetry
  • 峰数 - 具有一个或多个峰的分布。具有一个明显峰的分布称为单峰分布,具有两个明显峰的分布称为双峰分布。中心处的单峰对称分布称为钟形分布。

    Number of peaks
  • 偏度 - 一些分布在一侧的观测值可能比另一侧多。在较低值处观测值较少的分布被称为右偏分布;在较低值处观测值较少的分布被称为左偏分布。

    Skewness
  • 均匀 - 当观测值集没有峰值并且数据在分布范围内均匀分布时,则该分布称为均匀分布。

    Uniform

异常特征

数据模式的常见异常特征是间隙和离群值。

  • 间隙 - 间隙指向分布中没有观测值的区域。下图有一个间隙,因为分布的中间没有观测值。

    Gaps
  • 离群值 - 分布可能以与其他观测数据集差异很大的极值来表征。这些极值称为离群值。下图说明了一个带有离群值的分布。

    Outliers
广告