大型数据库中的统计度量是什么?
关系型数据库系统支持五种内置聚合函数,例如 count()、sum()、avg()、max() 和 min()。这些聚合函数可以用作多维信息描述性挖掘中的基本度量。有两种描述性统计度量,例如集中趋势度量和数据离散度度量,可以有效地用于高多维数据库。
集中趋势度量 - 集中趋势度量,如平均数、中位数、众数和中程数。
平均数 - 算术平均数简单地通过将所有值加在一起并除以值的个数来计算。它使用了每个值的的数据。令 x1、x2、... xn 为一组 N 个值或观测值,例如薪资。这组值的平均数为
$$\mathrm{X^\prime\:=\:\frac{\sum_{i=1}^N\:X_i}{N}\:=\:\frac{X_1+X_2\:\dotsm\:X_n}{N}}$$
这对应于关系型数据库系统中支持的聚合函数 average (avg())。在多个数据立方体中,sum 和 count 会在预计算中保存。因此,平均值的推导很简单。
$\mathrm{average\:=\:\frac{sum}{count}}$
中位数 - 根据值的分布,计算中位数有两种方法。
如果 x1、x2、.... xn 按降序排列,并且 n 为奇数。那么中位数为
$$\mathrm{\left(\frac{n+1}{2}\right)^{th}\:value}$$
例如,1、4、6、7、12、14、18
中位数 = 7
当 n 为偶数时。那么中位数为
$$\mathrm{\frac{\left(\frac{n}{2}\right)^{th}value\:+\:\left(\frac{n}{2}\:+\:1\right)^{th} value}{2}}$$
例如,1、4、6、7、8、12、14、16。
$$\mathrm{Median\:=\:\frac{7+8}{2}\:=\:7.5}$$
中位数既不是分布式度量也不是代数度量,它是整体度量。虽然在大型数据库中评估确切的中位数值并不简单,但可以有效地计算近似中位数。
众数 - 它是一组值中最常见的值。分布可以是单峰、双峰或多峰。如果数据是分类的(在名义尺度上测量),则只能计算众数。众数也可以用序数和更高阶的数据计算,但并不合适。
测量数据的离散度 - 数值信息倾向于扩散的程度称为数据的离散度或方差。最常见的数据离散度度量是范围、四分位距和标准差。
范围 - 范围表示为数据集中最大值与最小值的差。
$$\mathrm{Range\:=\:X_L-X_S}$$
其中
$\mathrm{X_L\:\rightarrow\:最大值}$
$\mathrm{X_S\:\rightarrow\:最小值}$
四分位数 - 除中位数外,最常见的百分位数是四分位数。由 Q1 表示的第一四分位数是第 25 个百分位数,由 Q3 表示的第三四分位数是第 75 个百分位数。包含中位数的四分位数提供了一些关于四分位数中心、扩展和形状的指示,这是一个简单的扩展度量,提供了数据中间一半所覆盖的范围。这称为四分位距 (IQR),定义为 -
$$\mathrm{IQR\:=\:Q_{3}-Q_{1}}$$
标准差 - 当方差中的离差值平方时,它们的度量单位也平方。