数据挖掘的特点是什么?
数据挖掘有各种各样的特点,如下所示:
数据类型 - 行业中可访问的大多数数据挖掘系统都处理格式化、基于记录的关系型数据,这些数据具有统计、分类和符号属性。数据可以是 ASCII 文本、关系数据库数据或数据仓库数据形式。测试每个系统可以处理的精确格式至关重要。
某些类型的数据或应用程序可能需要专门的算法来搜索模式,因此它们的需 求无法由现成的通用数据挖掘系统管理。相反,可以使用专门的数据挖掘系 统,这些系统挖掘文本报告、地理空间数据、多媒体数据、流数据、时间序列数据、生物数据或 Web 数据,或者专用于特定应用程序(包括金融、零售业或电信)。
系统问题 - 给定的数据挖掘系统只能在一个操作系统框架或多个操作系统框架上运行。托管数据挖掘软件的著名操作系统是 UNIX/Linux 和 Microsoft Windows。还有一些数据挖掘系统可以在 Macintosh、OS/2 等上运行。大型面向市场的数
大型面向市场的数据挖掘系统通常采用客户端/服务器体系结构,其中客户端可以是个人计算机,服务器可以是功能强大的并行计算机的集合。目前的趋势是数据挖掘系统支持基于 Web 的接口,并允许 XML 数据作为输入和/或输出。
数据源 - 这定义了数据挖掘系统将在其上运行的特定数据格式。一些系统仅在 ASCII 文本文件上运行,而另一些系统则在关系数据或数据仓库数据上运行,访问多个关系数据源。
数据挖掘系统必须提供 ODBC 连接或用于 ODBC 连接的 OLE DB。这些提供了开放式数据库连接,特别是能够访问任何关系数据(包括 IBM/DB2、Microsoft SQL Server、Microsoft Access、Oracle、Sybase 等中的数据)和格式化的 ASCII 文本数据。
数据挖掘功能和方法 - 数据挖掘功能构成了数据挖掘系统的核心。一些数据挖掘系统仅支持一种数据挖掘功能,例如分类。其他系统可以帮助多种数据挖掘功能,包括概念描述、发现驱动的 OLAP 分析、关联挖掘、链接分析、统计分析、分类、预测、聚类、异常值分析、相似性搜索、序列模式分析和可视化数据挖掘。
对于给定的数据挖掘功能(包括分类),一些系统可能只提供一种方法,而另一些系统则可以提供各种方法(包括决策树分析、贝叶斯网络、神经网络、支持向量机、基于规则的分类、k 最近邻方法、遗传算法和基于案例的推理)。
提供多种数据挖掘功能和每个功能多种方法的数据挖掘系统为用户提供了更高的灵活性和分析能力。某些问题可能需要用户尝试几种不同的挖掘功能或将几种功能结合在一起,并且不同的方法对于不同类型的数据可能比其他方法更有效。