数据挖掘的架构是什么?
数据挖掘是从存储在存储库中的大量数据中筛选,使用模式识别技术以及统计和数学技术,发现有意义的新关联、模式和趋势的过程。它是对观察数据集的分析,以发现意想不到的关系,并以对数据所有者既易于理解又实用的新颖方式对数据进行总结。
它是选择、探索和建模大量信息以寻找最初未知的规律或关系,以便为数据库所有者获得清晰和有益的结果的过程。数据挖掘是通过自动或半自动方式探索和分析海量数据以发现有意义的设计和方法的阶段。
数据挖掘是一种重要的方法,它可以从海量信息中提取以前未知的且可能对用户有用的数据。数据挖掘过程包含多个组件,这些组件构成了数据挖掘系统结构。数据挖掘的主要组件如下:
信息存储库 - 这是一组或多组数据库、数据仓库、电子表格或多种类型的数据存储库。可以对数据实施数据清理和数据集成技术。
数据库或数据仓库服务器 - 数据库或数据仓库服务器负责根据用户的数据库请求获取相关数据。
知识库 - 这是可以指导搜索或计算结果设计趣味性的领域知识。
数据挖掘引擎 - 这对于数据挖掘系统至关重要,它包含一组用于执行任务的功能模块,包括特征描述、关联和相关性分析、分类、预测、聚类分析、离群值分析和演化分析。
模式评估模块 - 此组件通常使用趣味性度量,并与数据挖掘结构通信以将搜索集中在有趣的模式上。
此部分通常使用利益相关者度量,这些度量与数据挖掘模块协作,以将搜索目标定位到引人入胜的设计。它可以使用利益相关者阈值来过滤掉发现的模式。
换句话说,模式评估模块可以根据所使用的数据挖掘技术的执行情况与挖掘模块协调。为了有效的数据挖掘,建议尽可能将模式利益相关者的评估推入挖掘过程中,以将搜索限制在仅限于有趣的模式。
用户界面 - 此模块连接用户和数据挖掘系统,使用户能够通过定义数据挖掘查询或任务与系统交互,提供数据以帮助集中搜索,以及根据中间数据挖掘结果执行探索性数据挖掘。
此外,此组件允许用户浏览数据库和数据仓库设计或数据结构,评估挖掘的模式,并以不同的形式可视化这些模式。