什么是数据降维?


数据挖掘应用于大型数据库中的选定数据。当对大量数据进行数据分析和挖掘时,处理需要很长时间,这使得它变得不切实际且不可行。它可以减少数据分析的处理时间,数据降维技术用于获取数据集的缩减表示,该表示在体积上要小得多,同时保持原始数据的完整性。通过减少数据,可以提高数据挖掘过程的效率,从而产生相同的分析结果。

数据降维旨在更简洁地定义它。当数据大小较小时,应用复杂且计算成本高的算法会更容易。数据的减少可以是行数(记录)方面,也可以是列数(维度)方面。

数据降维有各种策略,如下所示:

数据立方体聚合 - 在此方法中,聚合操作用于数据立方体的构建数据。这些数据包括 2002 年至 2004 年期间每个季度的所有电子产品销售额。它对年度销售额(每年总计)感兴趣,而不是每个季度的总计。因此,可以聚合数据,以便结果数据汇总每年的总销售额而不是每个季度的总销售额。结果数据集的体积较小,并且没有丢失对分析任务必不可少的数据。

属性子集选择 - 在此方法中,可以发现并删除不相关、弱相关或冗余的属性或维度。用于分析的数据集可能包含数百个属性,其中一些属性可能与挖掘任务无关或冗余。例如,如果任务是根据客户是否可能在收到促销信息时购买 All Electronics 上的一张热门新 CD 来对客户进行分类,则诸如客户电话号码之类的属性可能不相关,而诸如年龄或音乐品味之类的属性则可能相关。

降维 - 使用编码机制来减少数据集的大小。在降维中,应用数据编码或转换以获得原始数据的缩减或“压缩”表示。如果可以从压缩数据中重建原始数据而不会丢失任何信息,则数据缩减称为无损。

数值缩减 - 数据通过替代的、更小的数据表示来恢复或预测,包括参数模型(只需要保存模型参数而不是实际数据)或非参数方法,包括聚类、抽样和直方图的使用。

离散化和概念层次结构生成 - 在此方法中,属性的原始数据值被替换为范围或更高的概念级别。数据离散化是一种数值缩减形式,对于自动生成概念层次结构非常有用。离散化和概念层次结构生成是数据挖掘的动态工具,因为它们允许在不同抽象级别上挖掘数据。

更新于:2021 年 11 月 19 日

4K+ 浏览量

开启您的 职业生涯

通过完成课程获得认证

开始学习
广告