数据挖掘中的数据预处理


数据预处理是数据挖掘中一个重要的过程。在这个过程中,原始数据被转换为可理解的格式,并为进一步分析做好准备。其目的是提高数据质量,并使其达到特定任务的要求。

数据预处理中的任务

数据清洗

数据清洗帮助我们从数据集中删除不准确、不完整和不正确的数据。一些用于数据清洗的技术包括:

处理缺失值

当某些数据丢失时,就会出现这种情况。

  • 可以使用标准值以手动方式填充缺失值,但仅适用于小型数据集。

  • 分别可以使用属性的平均值和中位数来替换数据在正态分布和非正态分布中的缺失值。

  • 如果数据集很大并且元组中缺少许多值,则可以忽略元组。

  • 在使用回归或决策树算法时,可以使用最合适的数值。

噪声数据

噪声数据是指机器无法解释且包含不必要的错误数据的数据。处理它们的一些方法包括:

  • 分箱法 - 此方法处理噪声数据以使其平滑。数据被平均划分并以分箱的形式存储,然后应用方法来平滑或完成任务。这些方法包括按分箱平均值平滑(分箱值被平均值替换)、按分箱中位数平滑(分箱值被中位数替换)以及按分箱边界平滑(取最小/最大分箱值并替换为最接近的边界值)。

  • 回归 - 回归函数用于平滑数据。回归可以是线性回归(包含一个自变量)或多元回归(包含多个自变量)。

  • 聚类 - 它用于将相似数据分组到集群中,并用于查找异常值。

数据集成

将来自多个来源(数据库、电子表格、文本文件)的数据组合到单个数据集中。在这个过程中创建了数据的一个单一且一致的视图。数据集成过程中的主要问题包括模式集成(集成从各种来源收集的数据集)、实体识别(识别来自不同数据库的实体)以及检测和解决数据值概念。

数据转换

在本部分中,更改数据的格式或结构,以便将数据转换为适合挖掘过程的格式。数据转换方法包括:

归一化 - 将数据缩放以将其表示在特定较小范围内(-1.0 到 1.0)的方法。

离散化 - 它有助于减少数据量,并将连续数据划分为区间。

属性选择 - 为了帮助挖掘过程,从给定的属性中派生出新的属性。

概念层次生成 - 在此,属性从层次结构中的较低级别更改为较高级别。

聚合 - 在此,存储数据的摘要,这取决于数据的质量和数量,以使结果更佳。

数据规约

它有助于提高存储效率并减少数据存储,从而通过产生几乎相同的结果来简化分析。在处理海量数据时,分析变得更加困难,因此使用规约来解决这个问题。

数据规约的步骤包括:

数据压缩

压缩数据以进行有效的分析。无损压缩是指在压缩过程中没有数据丢失。有损压缩是指在压缩过程中删除不必要的信息。

数值规约

减少数据量,即仅存储数据的模型而不是整个数据,这提供了数据的较小表示,而不会丢失任何数据。

降维

在此,减少属性或随机变量,以便使数据集维度降低。属性被组合而不会丢失其原始特征。

结论

本文包含数据预处理,它有助于将数据转换为可用的格式。有助于数据预处理的任务包括数据清洗、数据集成、数据转换和数据规约。数据清洗通过处理缺失值并借助分箱法、回归和聚类平滑噪声来删除不完整的数据。数据集成将来自多个来源的数据组合成一个数据集。数据转换通过使用离散化、属性选择、概念层次生成和聚合来帮助更改数据的格式,从而使数据可用于挖掘。数据规约有助于减少数据的存储,从而通过一些步骤(如数据压缩、数值规约和降维)使分析更容易。

更新于:2023年8月22日

20K+ 浏览量

开启您的 职业生涯

通过完成课程获得认证

开始学习
广告