数据预处理的任务有哪些?
数据预处理的主要步骤包括数据清洗、数据集成、数据规约和数据转换,具体如下:
**数据清洗** − 数据清洗程序通过填充缺失值、平滑噪声信息、识别或消除异常值以及解决偏差来“清理”信息。如果用户知道数据是脏的,他们不太可能相信某些已被使用的数据挖掘结果。
此外,脏数据可能会使挖掘阶段混乱,导致输出不稳定。一些挖掘程序有一些阶段用于处理不完整或嘈杂的信息,但它们并不总是有效的。相反,它们可以专注于防止将信息过度拟合到正在建模的函数。
**数据集成** − 数据集成是从多个不同来源合并数据的过程。在执行数据集成时,它必须处理数据冗余、不一致、重复等问题。在数据挖掘中,数据集成是一种记录预处理方法,包括将来自几个异构数据源的数据合并成连贯的数据,以保留和提供数据的统一视角。
数据集成在医疗保健行业尤其重要。来自多个患者数据和诊所的集成数据通过将来自多个系统的数据集成到单个有益数据的视角中,帮助临床医生识别医疗疾病和疾病,从中可以得出有益的见解。
**数据规约** − 数据规约的目标是更简洁地定义它。当数据量较小时,使用复杂且计算成本高的算法更容易。数据的减少可以是多行(记录)方面,也可以是多列(维度)方面。
在降维中,使用数据编码方案来获得初始数据的简化或“压缩”描述。示例包括数据压缩方法(例如,小波变换和主成分分析)、属性子集选择(例如,去除无关属性)和属性构造(例如,从初始集中更改为一小组更有益的属性)。
在数值规约中,使用替代的、更小的描述来恢复数据,使用参数模型(如回归或对数线性模型)或非参数模型(如直方图、聚类、抽样或数据聚合)。
**数据转换** − 在数据转换中,通过执行汇总或聚合操作,将数据转换或链接成适用于挖掘的形式。数据转换包括:
**平滑** − 它可以去除数据中的噪声。此类技术包括分箱、回归和聚类。
**聚合** − 在聚合中,将汇总或聚合服务应用于数据。例如,可以聚合每日销售数据以计算每月和每年的总金额。此过程通常用于开发数据立方体,以便以多种粒度分析记录。