数据挖掘中分类和预测的各种问题是什么?
以下是可用于数据预处理的步骤,以促进提高分类或预测阶段的准确性、有效性和可扩展性:
数据清洗 - 这定义了数据预处理以通过使用平滑方法和处理缺失值(例如,通过用该属性中最常见的值或基于统计的最佳可能值来恢复缺失值)来消除或减少噪声。尽管各种分类算法都有一些处理噪声或缺失信息的机制,但这一步可以帮助减少学习过程中的混淆。
相关性分析 - 数据中存在许多属性可能与分类或预测任务无关。例如,记录银行贷款软件填写日期的数据不太可能与软件的成功相关。此外,一些不同的属性可能是冗余的。
因此,可以对数据进行相关性分析,以从学习过程中删除一些不相关或冗余的属性。在机器学习中,此步骤称为特征选择。它包含那些可能会减慢速度并可能误导学习步骤的属性。
正确地,在相关性分析上花费的时间,当与从生成的“减少”特征子集学习上花费的时间相加时,必须小于在初始特征集上学习所花费的时间。因此,这种分析可以帮助提高分类效率和可扩展性。
数据转换 - 数据可以被概括为一个更高级别的视角。概念层次结构可以用于这些目标。这对于连续值属性尤其有用。例如,属性收入的数值可以概括为包括低、中、高在内的离散字段。同样,名义值属性,例如街道,可以概括为更高级别的概念,例如城市。
因为泛化缩短了初始训练数据,所以学习过程中可以包含更少的输入/输出操作。当在学习步骤中使用神经网络或包含距离测量的技术时,数据也可以被标准化。
标准化包括缩放给定属性的所有值,以便它们落在一个小指定的范围内,例如 -1.0 到 1.0,或 0 到 1.0。在应用距离测量的这些方法中,例如,这可以避免具有原始高范围(例如,收入)的属性从
广告