什么是数据清洗?
数据清洗是指通过填充缺失值、平滑噪声数据、分析和去除异常值以及消除数据不一致性来清理数据。有时,不同层次细节的数据可能与所需数据不同,例如,可能需要20-30岁、30-40岁、40-50岁的年龄范围,而导入的数据包含出生日期。可以通过将数据拆分为适当的类型来清理数据。
数据清洗的类型
数据清洗有多种类型,如下所示:
缺失值 - 缺失值用适当的值填充。填充值的方法如下:
如果元组包含多个具有缺失值的属性,则忽略该元组。
手动填充缺失值。
可以使用相同的全局常量填充值。
可以使用属性平均值填充缺失值。
可以使用最可能的值填充缺失值。
噪声数据 - 噪声是测量变量中的随机误差或方差。处理噪声的平滑方法如下:
分箱法 - 这些方法通过参考其“邻域”(尤其是噪声信息周围的值)来平滑一系列数据值。排列后的值被分配到多个桶或箱中。由于分箱法参考值邻域,因此它们实现局部平滑。
回归法 - 数据可以通过将信息拟合到函数(包括回归)来平滑。线性回归包括找到拟合两个属性(或变量)的“最佳”直线,以便可以使用一个属性来预测另一个属性。多元线性回归是线性回归的扩展,其中包含两个以上的属性,并且数据拟合到多维空间。
聚类法 - 聚类有助于识别异常值。相同的值被组织成簇,而落在簇之外的值被称为异常值。
计算机和人工检查相结合 - 也可以借助计算机和人工检查来识别异常值。异常值模式可以是描述性的或垃圾数据。具有惊人值的模式可以输出到列表中。
不一致数据 - 不一致性可能记录在各种事务中,在数据输入过程中,或来自多个数据库中信息的集成。一些冗余可以通过相关性分析来识别。来自不同来源的数据的准确和正确的集成可以减少和避免冗余。
广告