平均数、中位数和众数之间的关系
介绍
在统计学中,数据是基于某些自然或人为的数学现象的信息集合。
有多种方法可以研究数据并解释数学现象的某些属性,但最常见的是集中趋势。顾名思义,集中趋势是一种用多种不同方法查找给定数据中所有观测值的中心的方法,第一种方法是将所有观测值相加,然后将该和除以观测值的个数,称为平均数;另一种方法是只选择最常见的观测值,称为众数;还有一种方法是,当数据按顺序排列时,选择中间的观测值,称为中位数。在本教程中,我们将学习集中趋势及其相互之间的关系。
集中趋势
集中趋势是一种查找最常见观测值或最常见观测值区域的方法。统计学中有三种集中趋势:
平均数
中位数
众数
平均数
平均数是一种集中趋势,它选择大多数其他观测值围绕其分布的观测值,它是通过用该值将数据分成两部分来实现的,即平均数是给定数据的中间值,使得小于或大于平均数的所有观测值的数值相同。
平均数通常用观测值符号上方的横线表示,即最常见的是$\mathrm{\overline{x}}$。
有多种平均数,例如算术平均数、几何平均数和调和平均数。最常见和最常用的平均数是算术平均数。算术平均数是通过将所有观测值相加,然后将该和除以观测值的总数来计算的。
未分组数据的平均数公式为:
$$\mathrm{\overline{x}\:=\:\frac{\Sigma\:x_{i}}{N}}$$
其中N是观测值的总数,𝑥𝑖是第i个观测值。
分组数据的平均数公式为:
$$\mathrm{\overline{x}\:=\:\frac{\Sigma\:f_{i}x_{i}}{\Sigma\:f_{i}}}$$
其中$\mathrm{x_{i}}$是第i个观测值,$\mathrm{f_{i}}$是其频数,并且$\mathrm{\Sigma\:f_{i}\:=\:N}$
中位数
中位数,顾名思义,就是中间的观测值,即当数据按顺序排列时,中间的观测值就是中位数。
未分组数据的中间数
未分组数据的中间数是通过将观测值按升序排列来计算的,如果观测值的个数是奇数,则中位数是中间的观测值;如果观测值的个数是偶数,则中位数是两个中间观测值的平均值。
即,如果观测值的个数N是奇数
$$\mathrm{中位数\:=\;(\frac{N\:+\:1}{2})^{th}\:观测值}$$
如果观测值的个数N是偶数,则
$$\mathrm{中位数\:=\frac{\;(\frac{N}{2})^{th}\:观测值\:+\:(\frac{N}{2}\:+\:1)^{th}\:观测值}{2}}$$
分组数据的中间数
为了找到分组数据的中间数,我们构造一个累积频率表:
在累积频率表中,对应于略大于观测值总数一半的频率的观测值就是中位数。
如果数据被分成类别,则公式如下:
$$\mathrm{中位数\:=\:l\:+\:\frac{\frac{n}{2}\:-\:cf}{f}\:\times\;h}$$
其中l是中位数类别的下限,cf是刚好小于观测值总数n的一半的累积频率,f是对应于中位数类别的频率,h是类别区间的宽度。
众数
众数是集中趋势中最常见的观测值。
未分组数据的众数
未分组数据的众数就是出现频率最高的项。
分组数据的众数
分组数据的众数是频率最高的观测值。
如果数据被分类成类别区间,则众数的公式为:
$$\mathrm{众数\:=\:l\:+\:\frac{f_{1}\:-\:f_{0}}{2^f_{1}\:-\:f_{0}\:-\:f_{2}}\:\times\:h}$$
其中l是众数类别的下限,𝑓1是众数频率(最高频率),𝑓0和𝑓2分别是众数类别上方和下方类别的频率,h是类别的宽度。
经验关系
三种集中趋势之间的关系称为经验关系,其公式为
$$\mathrm{3中位数\:=\:2平均数\:+\:众数}$$
随着数据样本量的增加,经验关系变得越来越准确。
已解决示例
1) 找到以下数据的三个集中趋势,并验证经验关系。
$\mathrm{x_{i}}$ | 10 | 12 | 13 | 15 | 17 | 18 | 20 | 23 | 25 |
---|---|---|---|---|---|---|---|---|---|
$\mathrm{f_{i}}$ | 3 | 5 | 6 | 7 | 9 | 8 | 6 | 4 | 2 |
答案 -
平均数
$\mathrm{x_{i}}$ | 10 | 12 | 13 | 15 | 17 | 18 | 20 | 23 | 25 | |
---|---|---|---|---|---|---|---|---|---|---|
$\mathrm{f_{i}}$ | 3 | 5 | 6 | 7 | 9 | 8 | 6 | 4 | 2 | $\mathrm{\Sigma\:f_{i}\:=\:50}$ |
$\mathrm{f_{i}\:x_{i}}$ | 30 | 60 | 78 | 105 | 153 | 144 | 120 | 92 | 50 | $\mathrm{\Sigma\:f_{i}\:x_{i}\:=\:832}$ |
$\mathrm{平均数\:=\:\overline{x}\:=\:\frac{\Sigma\:f_{i}x_{i}}{\Sigma\:f_{i}}\:=\:\frac{832}{50}\:=\:16.64}$
中位数
$\mathrm{x_{i}}$ | 10 | 12 | 13 | 15 | 17 | 18 | 20 | 23 | 25 |
---|---|---|---|---|---|---|---|---|---|
$\mathrm{f_{i}}$ | 3 | 5 | 6 | 7 | 9 | 8 | 6 | 4 | 2 |
累积频率 (C.F) | 3 | 8 | 14 | 21 | 30 | 38 | 44 | 47 | 50 |
这里,$\mathrm{N\:=\:50\:\Longrightarrow\:\frac{N}{2}\:=\:25}$
这意味着𝑐𝑓 = 30
中位数 = 17
众数
在频率表中,最高频率对应于17
$\mathrm{\Longrightarrow\:众数\:=\:17}$
三个集中趋势是:
平均数 = 16.64
中位数 = 17
众数 = 17
经验关系
$$\mathrm{3中位数\:=\:2平均数\:+\:众数}$$
$$\mathrm{3\times\:17\:=\:2\times\:16.64\:+\:17}$$
$$\mathrm{51\:\approx\:50.28}$$
结论
集中趋势是一种在数据观测值之间找到某种“共同点”的方法。
有三种不同的集中趋势:
平均数 - 它是观测值的平均值。它按总值将数据分成两半。
众数 - 它是数据中最常见的观测值。出现频率最高的观测值也是集中趋势的度量。
中位数 - 它是按顺序排列时最中心的观测值。位于排列数据中间的观测值也是集中趋势的度量。
三种不同集中趋势之间的关系称为经验关系。它如下所示:
$$\mathrm{3中位数\:=\:2平均数\:+\:众数}$$
常见问题解答 (FAQs)
1. 什么是集中趋势?
集中趋势被定义为一种在数据所有观测值之间找到中心“共同点”的方法。
有三种不同类型的集中趋势。
平均数
中位数
众数
2. 什么是平均数?分组数据和未分组数据的平均数公式是什么?
平均数被定义为将数据分成总值相等的两部分的数。
有三种不同类型的平均数:算术平均数 (AM)、几何平均数 (GM) 和调和平均数 (HM)。但是,通常在谈论平均数时,我们通常指的是算术平均数。
算术平均数是所有数据的平均值,即所有观测值的总和除以观测值的总数。
对于未分组数据:
$\mathrm{\overline{x}\:=\:\frac{\Sigma\:x_{i}}{N}}$,其中N是观测值的总数,𝑥𝑖是第i个观测值。
对于分组数据:
$\mathrm{\overline{x}\:=\:\frac{\Sigma\:f_{i}x_{i}}{\Sigma\:f_{i}}}$,其中$\mathrm{x_{i}}$是第i个观测值,$\mathrm{f_{i}}$是其频数,并且$\mathrm{\Sigma\:f_{i}\:=\:N}$,即观测值的总数。
3. 什么是中位数?求分组数据和未分组数据的中位数的公式是什么?
中位数被定义为最中心的观测值。
未分组数据的中位数只是最中心的观测值或两个最中心观测值的平均值。
分组数据的中位数是使用累积频率表计算的。
对于简单的分组数据,中位数是对应于略大于总频率一半的项。
对于类别区间:
$$\mathrm{中位数\:=\:l\:+\:\frac{\frac{n}{2}\:-\:cf}{f}\:\times\:h}$$
其中l是中位数类别的下限,cf是刚好小于观测值总数n的一半的累积频率,f是对应于中位数类别的频率,h是类别区间的宽度。
4. 什么是众数?分组数据和非分组数据的众数公式是什么?
众数定义为出现频率最高的观测值。
非分组数据和简单分组数据的众数是频率最高的观测值。
组距数据的众数:
$$ \mathrm{众数} = l + \frac{f_1 - f_0}{2f_1 - f_0 - f_2} \times h $$
其中,l 是众数组的组下限,𝑓1 是众数频率(最高频率),𝑓0 和 𝑓2 分别是众数组上下组的频率,h 是组距。
5. 经验关系是什么?
平均数、中位数和众数之间的关系称为经验关系。
$$\mathrm{3中位数\:=\:2平均数\:+\:众数}$$