什么是数据量缩减?


在数据量缩减中,通过选择替代的、更小的数据表示形式来减少数据量。这些技术可能是参数化的或非参数化的。对于参数化方法,使用模型来估计数据,因此只需要存储数据参数,而不是实际数据,例如对数线性模型。非参数化方法用于存储数据的缩减表示,包括直方图、聚类和抽样。

以下是数据量缩减的技术:

回归和对数线性模型 - 这些模型可用于近似给定数据。在线性回归中,数据被建模以拟合一条直线。例如,一个随机变量 y(称为响应变量)可以被建模为另一个随机变量 x(称为预测变量)的线性函数,其方程为 y = wx+b,其中 y 的方差被假定为常数。

对数线性模型 - 这些模型用于近似离散多维概率分布。给定一组 n 维元组(例如,由 n 个属性组成),可以将每个元组视为 n 维空间中的一个点。

对数线性模型可用于测量一组离散化属性的多维空间中每个点的概率,这取决于较小子集的维度组合。这使得能够从低维空间生成更高维的数据字段。

直方图 - 直方图使用分箱来近似数据分布,并且是数据缩减的一种著名形式。某个属性 A 的直方图将 A 的数据分布划分为不相交的子集或桶。如果每个桶仅定义一个单独的属性值/频率对,则这些桶称为单值桶。

聚类 - 聚类技术将数据元组视为对象。它们将对象划分为组或簇,以便一个簇中的对象彼此“相似”,而与其他簇中的对象“不同”。它通常根据对象在空间中的“接近程度”来定义,这基于距离函数。

簇的质量可以通过其直径来定义,即簇中任意两个对象之间的最大距离。质心距离是簇质量的另一种度量,表示为每个簇对象与其质心之间的平均距离,表示簇区域的“平均对象”或平均点。

抽样 - 抽样可用作数据缩减方法,因为它使得可以通过信息中更小的随机样本(或子集)来定义庞大的数据集。

更新于: 2021年11月19日

1K+ 阅读量

开启你的职业生涯

通过完成课程获得认证

开始学习
广告

© . All rights reserved.