- 统计学教程
- 首页
- 调整后的R平方
- 方差分析
- 算术平均数
- 算术中位数
- 算术众数
- 算术极差
- 条形图
- 最佳点估计
- 贝塔分布
- 二项分布
- 布莱克-斯科尔斯模型
- 箱线图
- 中心极限定理
- 切比雪夫定理
- 卡方分布
- 卡方表
- 环排列
- 整群抽样
- 科恩Kappa系数
- 组合
- 有放回组合
- 比较图表
- 连续均匀分布
- 连续数列算术平均数
- 连续数列算术中位数
- 连续数列算术众数
- 累积频率
- 变异系数
- 相关系数
- 累积图
- 累积泊松分布
- 数据收集
- 数据收集 - 问卷设计
- 数据收集 - 观察法
- 数据收集 - 案例研究法
- 数据模式
- 十分位数统计
- 离散数列算术平均数
- 离散数列算术中位数
- 离散数列算术众数
- 点图
- 指数分布
- F分布
- F检验表
- 阶乘
- 频率分布
- 伽马分布
- 几何平均数
- 几何概率分布
- 拟合优度
- 总平均数
- Gumbel分布
- 调和平均数
- 调和数
- 谐振频率
- 直方图
- 超几何分布
- 假设检验
- 个体数列算术平均数
- 个体数列算术中位数
- 个体数列算术众数
- 区间估计
- 逆伽马分布
- Kolmogorov-Smirnov检验
- 峰度
- 拉普拉斯分布
- 线性回归
- 对数伽马分布
- 逻辑回归
- 麦克尼马尔检验
- 平均偏差
- 均值差异
- 多项分布
- 负二项分布
- 正态分布
- 奇排列和偶排列
- 单比例Z检验
- 异常值函数
- 排列
- 有放回排列
- 饼图
- 泊松分布
- 合并方差(r)
- 功效计算器
- 概率
- 概率加法定理
- 概率乘法定理
- 概率贝叶斯定理
- 概率密度函数
- 过程能力(Cp)和过程性能(Pp)
- 过程Sigma
- 二次回归方程
- 定性数据与定量数据
- 四分位差
- 经验法则
- 瑞利分布
- 回归截距置信区间
- 相对标准偏差
- 信度系数
- 所需样本量
- 残差分析
- 残差平方和
- 均方根
- 样本计划
- 抽样方法
- 散点图
- 香农-维纳多样性指数
- 信噪比
- 简单随机抽样
- 偏度
- 标准差
- 标准误(SE)
- 标准正态表
- 统计显著性
- 统计公式
- 统计符号
- 茎叶图
- 分层抽样
- 学生t检验
- 平方和
- t分布表
- TI-83指数回归
- 转换
- 截尾均值
- I型和II型错误
- 方差
- 韦恩图
- 大数弱定律
- Z表
- 统计学有用资源
- 统计学 - 讨论
统计学 - 异常值函数
在概率分布函数中,异常值是指超出数据集长度1.5倍的数字,远离下四分位数或上四分位数。具体来说,如果一个数字小于${Q_1 - 1.5 \times IQR}$或大于${Q_3 + 1.5 \times IQR}$,则它是一个异常值。
异常值由以下概率函数定义和给出
公式
${异常值数据\lt Q_1 - 1.5 \times IQR\ (或)\ \gt Q_3 + 1.5 \times IQR }$
其中 -
${Q_1}$ = 第一四分位数
${Q_2}$ = 第三四分位数
${IQR}$ = 四分位距
示例
问题陈述
考虑一个数据集,该数据集表示8个不同学生的周期性任务计数。任务计数信息集为11、13、15、3、16、25、12和14。从学生的周期性任务计数中发现异常值数据。
解决方案
给定数据集为
| 11 | 13 | 15 | 3 | 16 | 25 | 12 | 14 |
按升序排列
| 3 | 11 | 12 | 13 | 14 | 15 | 16 | 25 |
第一四分位数的值(${Q_1}$)
${ Q_1 = \frac{(11 + 12)}{2} \\[7pt] \ = 11.5 }$
第三四分位数的值(${Q_3}$)
${ Q_3 = \frac{(15 + 16)}{2} \\[7pt] \ = 15.5 }$
下异常值范围(L)
${ Q_1 - 1.5 \times IQR \\[7pt] \ = 11.5 - (1.5 \times 4) \\[7pt] \ = 11.5 - 6 \\[7pt] \ = 5.5 }$
上异常值范围(L)
${ Q_3 + 1.5 \times IQR \\[7pt] \ = 15.5 + (1.5 \times 4) \\[7pt] \ = 15.5 + 6 \\[7pt] \ = 21.5 }$
在给定的信息中,5.5和21.5大于给定数据集中的其他值,即除了3和25之外,因为3大于5.5,而25小于21.5。
这样,我们使用3和25作为异常值。