数据挖掘 - 问题



数据挖掘并非易事,因为所使用的算法可能非常复杂,而且数据并不总是集中在一个地方。它需要从各种异构数据源进行集成。这些因素也产生了一些问题。在本教程中,我们将讨论以下主要问题:

  • 挖掘方法和用户交互
  • 性能问题
  • 多种数据类型问题

下图描述了主要问题。

Data Mining issues

挖掘方法和用户交互问题

它指的是以下几种问题:

  • 挖掘数据库中不同类型的知识 - 不同的用户可能对不同类型的知识感兴趣。因此,数据挖掘必须涵盖广泛的知识发现任务。

  • 多层次抽象的交互式知识挖掘 - 数据挖掘过程需要交互式,因为它允许用户专注于模式搜索,根据返回的结果提供和完善数据挖掘请求。

  • 背景知识的融入 - 背景知识可以用来指导发现过程和表达发现的模式。背景知识不仅可以简洁地表达发现的模式,还可以以多种抽象层次表达。

  • 数据挖掘查询语言和临时数据挖掘 - 允许用户描述临时挖掘任务的数据挖掘查询语言应该与数据仓库查询语言集成,并针对高效灵活的数据挖掘进行优化。

  • 数据挖掘结果的呈现和可视化 - 一旦发现模式,就需要用高级语言和可视化表示来表达。这些表示应该易于理解。

  • 处理噪声或不完整数据 - 需要数据清洗方法来处理挖掘数据规律时遇到的噪声和不完整对象。如果没有数据清洗方法,则发现模式的准确性会很差。

  • 模式评估 - 发现的模式应该是有趣的,因为它们要么代表常识,要么缺乏新颖性。

性能问题

可能存在以下与性能相关的問題:

  • 数据挖掘算法的效率和可扩展性 - 为了有效地从数据库中大量数据中提取信息,数据挖掘算法必须高效且可扩展。

  • 并行、分布式和增量挖掘算法 - 数据库的巨大规模、数据的广泛分布以及数据挖掘方法的复杂性等因素促进了并行和分布式数据挖掘算法的开发。这些算法将数据划分成多个分区,然后以并行方式处理。然后将来自各个分区的结果合并。增量算法更新数据库,而无需从头开始再次挖掘数据。

多种数据类型问题

  • 处理关系型和复杂类型的数据 - 数据库可能包含复杂数据对象、多媒体数据对象、空间数据、时间数据等。一个系统不可能挖掘所有这些类型的数据。

  • 从异构数据库和全球信息系统中挖掘信息 - 数据存在于LAN或WAN上的不同数据源中。这些数据源可能是结构化的、半结构化的或非结构化的。因此,从中挖掘知识给数据挖掘带来了挑战。

广告