数据挖掘过程
从海量数据集中提取可用于分析并为组织带来益处的数据的过程。数据挖掘过程通常包括以下步骤:
业务理解
业务理解和客户目标是必要的。需要定义客户的需求,然后根据场景定义数据挖掘目标。
数据理解
从不同来源收集数据并进行探索,以了解数据的属性和特征。
数据准备
收集到的数据现在被选择、清理、转换、预处理和构建,以便使其准备好进行分析。此过程占据了项目的大部分时间。
建模
使用数学模型和算法获取数据。建模技术或模型由利益相关者评估,以用于数据集以获取结果数据。
评估
评估识别出的结果或模式,以检查其是否符合业务目标。
部署
创建部署计划并生成报告,以帮助改进业务决策。
数据挖掘过程
陈述问题并制定假设
在本部分中,从一个组中获取问题并应用初始假设。数据挖掘专家和应用专家之间进行了深入的交流以制定假设,并且在整个数据挖掘过程中持续进行。
数据收集
此步骤负责如何从各种来源收集数据。数据收集有两种场景。第一种是专家控制数据生成过程,该过程设计良好且易于理解。第二种是专家无法影响数据生成过程,并使用观察方法随机生成数据。在某些情况下,数据收集程序隐含的采样分布部分或未知。为了在最终结果中利用估计模型,有必要了解数据收集如何与其分布相矛盾,因为数据将用于建模,最终结果的解释和估计模型。
数据预处理
在此过程中,原始数据被转换为可理解的格式,并准备好进行进一步分析。目的是提高数据质量并使其达到特定任务的要求。
它通常至少包含两个任务:
异常值检测和去除
异常值是非特异性数据,不能用于观察。它包含错误和异常值,可能损害模型。可以通过检测和去除异常值或使用对异常值不敏感的稳健建模来处理它。
缩放和编码
使用变量缩放和编码,我们需要对其进行缩放并传达等效权重,这有助于分析。特定于应用程序的编码通过实现降维来提供更少的信息。
估计模型
此阶段有助于选择最合适的 数据挖掘技术。首先在不同的模型上进行实现,然后选择最简单的模型进行进一步处理。
解释模型并得出结论
简单的模型是可解释的,但准确性较低。新一代数据挖掘模型有望通过使用高维模型提供高精度。一些特定的技术用于通过解释这些模型来验证结果。
结论
本文包含数据挖掘过程,包括业务理解、数据理解、数据准备、建模、评估和部署等步骤。数据挖掘过程包括 5 个部分。首先是陈述问题并制定假设,其中获取问题并应用假设。其次是数据收集,它有助于从不同来源收集数据。第三是数据预处理,它通过使用异常值检测/去除、缩放和编码将数据转换为可理解的形式。第四是估计模型,它有助于选择合适的简单模型进行分析。第五是解释模型并得出结论,它指的是使用模型进行解释并得出结论,从而提供高精度。