什么是KDD的过程?
KDD 代表数据库中的知识发现。它定义了在数据中发现知识的广泛过程,并强调了特定数据挖掘技术的更高层次应用。它是多个领域研究人员感兴趣的领域,例如人工智能、机器学习、模式识别、数据库、统计学、专业系统知识获取和数据可视化。
知识发现过程是迭代和交互式的,包括九个步骤。该过程在每个阶段都是迭代的,这意味着可能需要转换回之前的操作。该过程在某种意义上具有多种创造性的方法,因为人们无法为每个步骤和应用类型提供一个公式或创建正确的决策的完整科学分类。因此,需要了解该过程以及每个阶段的多种需求和可能性。
发展理解 - 这是基本的初步步骤。它为学习如何使用各种决策(如转换、算法、表示等)来创建场景。负责 KDD 项目的个人需要了解并描述最终用户的目标以及知识发现过程将出现的环境(涉及相关的先前知识)。
创建目标数据集 - 它可以选择数据集或针对变量或数据样本的子集,在其上实现发现。此过程至关重要,因为数据挖掘从可访问的数据中学习和查找。这是构建模型的证据基础。如果缺少一些重要的属性,那么从这个角度来看,整个研究可能会失败,考虑的属性越多越好。
数据清理和预处理 - 数据清理定义为通过填充缺失值、平滑噪声数据、识别和消除异常值以及消除数据中的不一致性来清理数据。
探索性分析和模型与假设选择 - 它可以选择要用于搜索数据模式的数据挖掘算法和方法。此过程包括确定哪些模型和参数可能是合适的,并将特定数据挖掘方法与 KDD 过程的长期标准相匹配。
数据挖掘 - 用于以特定的表示形式或一组此类表示形式搜索感兴趣的模式,包括分类规则或树、回归和聚类。用户可以通过正确地执行前面的步骤来显着帮助数据挖掘方法。
对发现的知识采取行动 - 直接使用知识,将知识整合到另一个系统中以进行其他操作,或者简单地记录它并将其报告给相关方。此过程还包括检查并解决与先前接受(或提取)的知识的潜在冲突。