什么是数据清洗？

数据挖掘数据库数据结构

数据清洗是指通过填充缺失值、平滑噪声数据、分析和去除异常值以及消除数据不一致性来清理数据。有时，不同层次细节的数据可能与所需数据不同，例如，可能需要20-30岁、30-40岁、40-50岁的年龄范围，而导入的数据包含出生日期。可以通过将数据拆分为适当的类型来清理数据。

数据清洗的类型

数据清洗有多种类型，如下所示：

缺失值 - 缺失值用适当的值填充。填充值的方法如下：
- 如果元组包含多个具有缺失值的属性，则忽略该元组。
- 手动填充缺失值。
- 可以使用相同的全局常量填充值。
- 可以使用属性平均值填充缺失值。
- 可以使用最可能的值填充缺失值。
噪声数据 - 噪声是测量变量中的随机误差或方差。处理噪声的平滑方法如下：
- 分箱法 - 这些方法通过参考其“邻域”（尤其是噪声信息周围的值）来平滑一系列数据值。排列后的值被分配到多个桶或箱中。由于分箱法参考值邻域，因此它们实现局部平滑。
- 回归法 - 数据可以通过将信息拟合到函数（包括回归）来平滑。线性回归包括找到拟合两个属性（或变量）的“最佳”直线，以便可以使用一个属性来预测另一个属性。多元线性回归是线性回归的扩展，其中包含两个以上的属性，并且数据拟合到多维空间。
- 聚类法 - 聚类有助于识别异常值。相同的值被组织成簇，而落在簇之外的值被称为异常值。
- 计算机和人工检查相结合 - 也可以借助计算机和人工检查来识别异常值。异常值模式可以是描述性的或垃圾数据。具有惊人值的模式可以输出到列表中。
不一致数据 - 不一致性可能记录在各种事务中，在数据输入过程中，或来自多个数据库中信息的集成。一些冗余可以通过相关性分析来识别。来自不同来源的数据的准确和正确的集成可以减少和避免冗余。

Ginni

更新于：2021年11月19日

15K+ 浏览量

开启您的职业生涯

完成课程获得认证

广告

© . All rights reserved.