将数据挖掘视为知识发现过程,它都包含哪些步骤?
KDD代表数据库中的知识发现 (Knowledge Discovery in Databases)。它定义了在数据中发现知识的广泛过程,并强调了特定数据挖掘技术的顶层应用。它是许多领域研究人员感兴趣的领域,例如人工智能、机器学习、模式识别、数据库、统计学、专业系统的知识获取以及数据可视化。
KDD过程的主要目标是从大型数据库环境中的信息中提取数据。它通过利用数据挖掘算法来识别被认为是知识的内容来实现这一点。
数据库中的知识发现被视为对大型数据存储库进行程序化、探索性分析和建模。KDD是从大型且复杂的数据集中识别有效、有用和易于理解的设计的有组织的过程。
数据挖掘是KDD过程的根本,例如推断用于调查记录、开发模型和发现以前未知模式的算法。该模型用于从信息中提取知识、分析信息和预测信息。
数据挖掘是KDD过程中的一个步骤,它包括应用数据分析和发现算法,这些算法在可接受的计算效率限制下,对数据进行特定模式(或模型)的枚举。
KDD过程包括使用数据库以及对其进行一些必要的选择、预处理、子采样和转换;使用数据挖掘方法(算法)从中枚举模式;以及计算数据挖掘的产品以识别被认为是知识的枚举模式的子集。
知识发现过程涉及的步骤如下:
- **选择** - 从各种来源收集数据挖掘过程所需的数据。因此,第一步是选择数据集或关注要实施发现的变量或数据样本的子集。
- **数据清洗和预处理** - 该过程中使用的数据可能包含缺失值或不正确的值,因此基本操作包括去除噪声、收集建模或解释噪声所需的信息、确定处理缺失数据字段的技术以及解释时间序列信息,这些都包含在KDD过程的第二步中。
- **数据转换** - 此步骤包括根据任务目标查找有用的特征来表示数据。通过降维或转换方法,可以减少所考虑变量的有效数量,或者可以发现数据的invariant表示。
- **数据挖掘** - 基于正在执行的数据挖掘任务,此步骤将算法应用于转换后的数据,搜索特定表示形式或一组特定表示(包括分类规则或树、回归和聚类)中的感兴趣模式。
- **解释挖掘出的模式** - 此步骤还可以涉及对提取的模式和模型的可视化,或对提取模型中给出的数据的可视化。
广告