数据挖掘中分类和预测的各种问题是什么？

数据挖掘数据库数据结构

以下是可用于数据预处理的步骤，以促进提高分类或预测阶段的准确性、有效性和可扩展性：

数据清洗 - 这定义了数据预处理以通过使用平滑方法和处理缺失值（例如，通过用该属性中最常见的值或基于统计的最佳可能值来恢复缺失值）来消除或减少噪声。尽管各种分类算法都有一些处理噪声或缺失信息的机制，但这一步可以帮助减少学习过程中的混淆。
相关性分析 - 数据中存在许多属性可能与分类或预测任务无关。例如，记录银行贷款软件填写日期的数据不太可能与软件的成功相关。此外，一些不同的属性可能是冗余的。
因此，可以对数据进行相关性分析，以从学习过程中删除一些不相关或冗余的属性。在机器学习中，此步骤称为特征选择。它包含那些可能会减慢速度并可能误导学习步骤的属性。
正确地，在相关性分析上花费的时间，当与从生成的“减少”特征子集学习上花费的时间相加时，必须小于在初始特征集上学习所花费的时间。因此，这种分析可以帮助提高分类效率和可扩展性。
数据转换 - 数据可以被概括为一个更高级别的视角。概念层次结构可以用于这些目标。这对于连续值属性尤其有用。例如，属性收入的数值可以概括为包括低、中、高在内的离散字段。同样，名义值属性，例如街道，可以概括为更高级别的概念，例如城市。
因为泛化缩短了初始训练数据，所以学习过程中可以包含更少的输入/输出操作。当在学习步骤中使用神经网络或包含距离测量的技术时，数据也可以被标准化。
标准化包括缩放给定属性的所有值，以便它们落在一个小指定的范围内，例如 -1.0 到 1.0，或 0 到 1.0。在应用距离测量的这些方法中，例如，这可以避免具有原始高范围（例如，收入）的属性从

基尼系数

更新于：2021年11月22日

11K+ 次浏览

启动您的职业生涯

通过完成课程获得认证

广告