统计学 - 峰度



峰度衡量的是分布的尾部特征,它告诉我们分布比正态分布更容易或更不容易出现离群值(尾部较重或较轻)的程度。Investopedia 提供的三种不同类型的曲线如下:

kurtosis

从密度图(左图)中很难辨别不同类型的峰度,因为所有分布的尾部都接近于零。但是,在正态分位数-分位数图(右图)中,尾部的差异很容易看到。

正态曲线称为正态峰度曲线。如果一个分布的曲线比正态曲线或正态峰度曲线更容易出现离群值(或尾部较重),则它被称为尖峰峰度曲线。如果一条曲线的离群值比正态曲线少(或尾部较轻),则它被称为低峰峰度曲线。峰度由矩来衡量,其公式如下:

公式

$\beta_2 = \frac{\mu_4}{\mu_2^2}$

其中:

  • $\mu_4 = \frac{\sum(x- \bar x)^4}{N}$

$\beta_2$ 值越大,曲线越尖锐或越尖峰。正态曲线的 $\beta_2$ 值为 3,尖峰峰度曲线的 $\beta_2$ 值大于 3,低峰峰度曲线的 $\beta_2$ 值小于 3。

示例

问题陈述

给出了某工厂 45 名工人的日工资数据。使用关于均值的矩计算 $\beta_1$ 和 $\beta_2$。对结果进行评论。

工资(卢比)工人数量
100-2001
120-2002
140-2006
160-20020
180-20011
200-2003
220-2002

解答

工资
(卢比)
工人数量
(f)
中点
m
m-$\frac{170}{20}$
d
fdfd²fd³fd⁴
100-2001110-3-39-2781
120-2002130-2-48-1632
140-2006150-1-66-66
160-2002017000000
180-20011190111111111
200-200321026122448
220-2002230361854162
 N=45  $\sum fd = 10$$\sum fd^2 = 64$$\sum fd^3 = 40$$\sum fd^4 = 330$

由于偏差是从假设均值计算的,因此我们首先计算关于任意原点的矩,然后计算关于均值的矩。关于任意原点'170'的矩

$\mu_1' = \frac{\sum fd}{N} \times i = \frac{10}{45} \times 20 = 4.44 \\ \mu_2' = \frac{\sum fd^2}{N} \times i^2 = \frac{64}{45} \times 20^2 = 568.88 \\ \mu_3' = \frac{\sum fd^3}{N} \times i^3 = \frac{40}{45} \times 20^3 = 7111.11 \\ \mu_4' = \frac{\sum fd^4}{N} \times i^4 = \frac{330}{45} \times 20^4 = 1173333.33$

关于均值的矩

$\mu_2 = \mu_2' - (\mu_1')^2 = 568.88 - (4.44)^2 = 549.16 \\ \mu_3 = \mu_3' - 3(\mu_1')(\mu_2') + 2(\mu_1')^3 \\ = 7111.11 - (4.44)(568.88) + 2(4.44)^3 \\ = 7111.11 - 7577.48 + 175.05 = -291.32 \\ \mu_4 = \mu_4' - 4(\mu_1')(\mu_3') + 6(\mu_1')^2(\mu_2') - 3(\mu_1')^4 \\ = 1173333.33 - 4(4.44)(7111.11) + 6(4.44)^2(568.88) - 3(4.44)^4 \\ = 1173333.33 - 126293.31 + 67288.03 - 1165.87 \\ = 1113162.18$

根据关于均值的矩的值,我们现在可以计算 $\beta_1$ 和 $\beta_2$

$\beta_1 = \frac{\mu_3^2}{\mu_2^3} = \frac{(-291.32)^2}{(549.16)^3} = 0.00051 \\ \beta_2 = \frac{\mu_4}{\mu_2^2} = \frac{1113162.18}{(546.16)^2} = 3.69$

从上述计算可以得出结论,衡量偏度的 $\beta_1$ 几乎为零,表明分布几乎是对称的。衡量峰度的 $\beta_2$ 值大于 3,因此意味着分布为尖峰峰度。

广告