统计学 - 峰度



峰度衡量的是分布的尾部特征,它告诉我们分布比正态分布更容易或更不容易出现离群值(尾部较重或较轻)的程度。Investopedia 提供的三种不同类型的曲线如下:

kurtosis

从密度图(左图)中很难辨别不同类型的峰度,因为所有分布的尾部都接近于零。但是,在正态分位数-分位数图(右图)中,尾部的差异很容易看到。

正态曲线称为正态峰度曲线。如果一个分布的曲线比正态曲线或正态峰度曲线更容易出现离群值(或尾部较重),则它被称为尖峰峰度曲线。如果一条曲线的离群值比正态曲线少(或尾部较轻),则它被称为低峰峰度曲线。峰度由矩来衡量,其公式如下:

公式

β2=μ4μ22

其中:

  • μ4=(xˉx)4N

β2 值越大,曲线越尖锐或越尖峰。正态曲线的 β2 值为 3,尖峰峰度曲线的 β2 值大于 3,低峰峰度曲线的 β2 值小于 3。

示例

问题陈述

给出了某工厂 45 名工人的日工资数据。使用关于均值的矩计算 β1β2。对结果进行评论。

工资(卢比)工人数量
100-2001
120-2002
140-2006
160-20020
180-20011
200-2003
220-2002

解答

工资
(卢比)
工人数量
(f)
中点
m
m-17020
d
fdfd²fd³fd⁴
100-2001110-3-39-2781
120-2002130-2-48-1632
140-2006150-1-66-66
160-2002017000000
180-20011190111111111
200-200321026122448
220-2002230361854162
 N=45  fd=10fd2=64fd3=40fd4=330

由于偏差是从假设均值计算的,因此我们首先计算关于任意原点的矩,然后计算关于均值的矩。关于任意原点'170'的矩

μ1=fdN×i=1045×20=4.44μ2=fd2N×i2=6445×202=568.88μ3=fd3N×i3=4045×203=7111.11μ4=fd4N×i4=33045×204=1173333.33

关于均值的矩

μ2=μ2(μ1)2=568.88(4.44)2=549.16μ3=μ33(μ1)(μ2)+2(μ1)3=7111.11(4.44)(568.88)+2(4.44)3=7111.117577.48+175.05=291.32μ4=μ44(μ1)(μ3)+6(μ1)2(μ2)3(μ1)4=1173333.334(4.44)(7111.11)+6(4.44)2(568.88)3(4.44)4=1173333.33126293.31+67288.031165.87=1113162.18

根据关于均值的矩的值,我们现在可以计算 β1β2

β1=μ23μ32=(291.32)2(549.16)3=0.00051β2=μ4μ22=1113162.18(546.16)2=3.69

从上述计算可以得出结论,衡量偏度的 β1 几乎为零,表明分布几乎是对称的。衡量峰度的 β2 值大于 3,因此意味着分布为尖峰峰度。

广告