- 统计学教程
- 首页
- 调整后的R方
- 方差分析
- 算术平均数
- 算术中位数
- 算术众数
- 算术极差
- 条形图
- 最佳点估计
- 贝塔分布
- 二项分布
- 布莱克-斯科尔斯模型
- 箱线图
- 中心极限定理
- 切比雪夫定理
- 卡方分布
- 卡方表
- 环状排列
- 整群抽样
- 科恩 Kappa 系数
- 组合
- 可重复组合
- 比较图表
- 连续均匀分布
- 连续数列算术平均数
- 连续数列算术中位数
- 连续数列算术众数
- 累积频率
- 变异系数
- 相关系数
- 累积图
- 累积泊松分布
- 数据收集
- 数据收集 - 问卷设计
- 数据收集 - 观察法
- 数据收集 - 案例研究法
- 数据模式
- 十分位数统计
- 离散数列算术平均数
- 离散数列算术中位数
- 离散数列算术众数
- 点图
- 指数分布
- F分布
- F检验表
- 阶乘
- 频数分布
- 伽马分布
- 几何平均数
- 几何概率分布
- 拟合优度
- 总平均数
- Gumbel 分布
- 调和平均数
- 调和数
- 谐振频率
- 直方图
- 超几何分布
- 假设检验
- 个体数列算术平均数
- 个体数列算术中位数
- 个体数列算术众数
- 区间估计
- 逆伽马分布
- Kolmogorov-Smirnov 检验
- 峰度
- 拉普拉斯分布
- 线性回归
- 对数伽马分布
- 逻辑回归
- 麦克尼马尔检验
- 平均差
- 均值差异
- 多项分布
- 负二项分布
- 正态分布
- 奇排列和偶排列
- 单比例Z检验
- 异常值函数
- 排列
- 可重复排列
- 饼图
- 泊松分布
- 合并方差 (r)
- 功效计算器
- 概率
- 概率加法定理
- 概率乘法定理
- 概率贝叶斯定理
- 概率密度函数
- 过程能力 (Cp) 和过程性能 (Pp)
- 过程Sigma
- 二次回归方程
- 定性数据与定量数据
- 四分位差
- 经验法则
- 瑞利分布
- 回归截距置信区间
- 相对标准差
- 信度系数
- 所需样本量
- 残差分析
- 残差平方和
- 均方根
- 样本规划
- 抽样方法
- 散点图
- 香农-威纳多样性指数
- 信噪比
- 简单随机抽样
- 偏度
- 标准差
- 标准误 (SE)
- 标准正态表
- 统计显著性
- 统计公式
- 统计符号
- 茎叶图
- 分层抽样
- 学生t检验
- 平方和
- t分布表
- TI-83 指数回归
- 变换
- 截尾均值
- I型和II型错误
- 方差
- 维恩图
- 大数弱定律
- Z表
- 统计学有用资源
- 统计学 - 讨论
统计学 - 峰度
峰度衡量的是分布的尾部特征,它告诉我们分布比正态分布更容易或更不容易出现离群值(尾部较重或较轻)的程度。Investopedia 提供的三种不同类型的曲线如下:
从密度图(左图)中很难辨别不同类型的峰度,因为所有分布的尾部都接近于零。但是,在正态分位数-分位数图(右图)中,尾部的差异很容易看到。
正态曲线称为正态峰度曲线。如果一个分布的曲线比正态曲线或正态峰度曲线更容易出现离群值(或尾部较重),则它被称为尖峰峰度曲线。如果一条曲线的离群值比正态曲线少(或尾部较轻),则它被称为低峰峰度曲线。峰度由矩来衡量,其公式如下:
公式
$\beta_2 = \frac{\mu_4}{\mu_2^2}$
其中:
$\mu_4 = \frac{\sum(x- \bar x)^4}{N}$
$\beta_2$ 值越大,曲线越尖锐或越尖峰。正态曲线的 $\beta_2$ 值为 3,尖峰峰度曲线的 $\beta_2$ 值大于 3,低峰峰度曲线的 $\beta_2$ 值小于 3。
示例
问题陈述
给出了某工厂 45 名工人的日工资数据。使用关于均值的矩计算 $\beta_1$ 和 $\beta_2$。对结果进行评论。
工资(卢比) | 工人数量 |
---|---|
100-200 | 1 |
120-200 | 2 |
140-200 | 6 |
160-200 | 20 |
180-200 | 11 |
200-200 | 3 |
220-200 | 2 |
解答
工资 (卢比) | 工人数量 (f) | 中点 m | m-$\frac{170}{20}$ d | fd | fd² | fd³ | fd⁴ |
---|---|---|---|---|---|---|---|
100-200 | 1 | 110 | -3 | -3 | 9 | -27 | 81 |
120-200 | 2 | 130 | -2 | -4 | 8 | -16 | 32 |
140-200 | 6 | 150 | -1 | -6 | 6 | -6 | 6 |
160-200 | 20 | 170 | 0 | 0 | 0 | 0 | 0 |
180-200 | 11 | 190 | 1 | 11 | 11 | 11 | 11 |
200-200 | 3 | 210 | 2 | 6 | 12 | 24 | 48 |
220-200 | 2 | 230 | 3 | 6 | 18 | 54 | 162 |
N=45 | $\sum fd = 10$ | $\sum fd^2 = 64$ | $\sum fd^3 = 40$ | $\sum fd^4 = 330$ |
由于偏差是从假设均值计算的,因此我们首先计算关于任意原点的矩,然后计算关于均值的矩。关于任意原点'170'的矩
$\mu_1' = \frac{\sum fd}{N} \times i = \frac{10}{45} \times 20 = 4.44 \\ \mu_2' = \frac{\sum fd^2}{N} \times i^2 = \frac{64}{45} \times 20^2 = 568.88 \\ \mu_3' = \frac{\sum fd^3}{N} \times i^3 = \frac{40}{45} \times 20^3 = 7111.11 \\ \mu_4' = \frac{\sum fd^4}{N} \times i^4 = \frac{330}{45} \times 20^4 = 1173333.33$
关于均值的矩
$\mu_2 = \mu_2' - (\mu_1')^2 = 568.88 - (4.44)^2 = 549.16 \\ \mu_3 = \mu_3' - 3(\mu_1')(\mu_2') + 2(\mu_1')^3 \\ = 7111.11 - (4.44)(568.88) + 2(4.44)^3 \\ = 7111.11 - 7577.48 + 175.05 = -291.32 \\ \mu_4 = \mu_4' - 4(\mu_1')(\mu_3') + 6(\mu_1')^2(\mu_2') - 3(\mu_1')^4 \\ = 1173333.33 - 4(4.44)(7111.11) + 6(4.44)^2(568.88) - 3(4.44)^4 \\ = 1173333.33 - 126293.31 + 67288.03 - 1165.87 \\ = 1113162.18$
根据关于均值的矩的值,我们现在可以计算 $\beta_1$ 和 $\beta_2$
$\beta_1 = \frac{\mu_3^2}{\mu_2^3} = \frac{(-291.32)^2}{(549.16)^3} = 0.00051 \\ \beta_2 = \frac{\mu_4}{\mu_2^2} = \frac{1113162.18}{(546.16)^2} = 3.69$
从上述计算可以得出结论,衡量偏度的 $\beta_1$ 几乎为零,表明分布几乎是对称的。衡量峰度的 $\beta_2$ 值大于 3,因此意味着分布为尖峰峰度。
广告