数据挖掘面临哪些挑战?
数据挖掘面临着各种挑战,如下所示:
数据挖掘算法的效率和可扩展性 - 它能够有效地从数据库中的大量数据中提取数据,知识发现算法应该对大型数据库具有高效性和可扩展性。具体来说,数据挖掘算法的运行时间应该在大型数据库中是可预测的和可接受的。具有指数级甚至通道级多项式复杂度的算法将无法有效使用。
数据挖掘结果的有用性、确定性和表达性 - 识别出的知识应该准确地描述数据库的内容,并对特定应用有用。不完善性必须通过不确定性的度量来定义,以近似规则或定量规则的形式表示。
噪声和异常数据必须在数据挖掘系统中得到优雅的处理。这也促使了对衡量发现知识质量(例如有趣性和可靠性)的系统化研究,方法是开发统计、分析和模拟模型和工具。
各种数据挖掘结果的表达 - 可以从大量数据中发现多种知识。它还可以喜欢从多个角度检查发现的知识,并以不同的形式显示它们。
这需要我们用高级语言或图形用户界面来定义数据挖掘请求和发现的知识,以便非专家可以定义数据挖掘任务,用户可以理解和精确地获得发现的知识。这也需要发现系统选择富有表现力的知识表示技术。
在多个抽象级别上交互式挖掘知识 - 因为很难预测从数据库中可以准确地发现什么,所以必须将高级数据挖掘查询视为可以揭示一些有趣线索以供进一步探索的探测。
必须鼓励交互式发现,它使用户能够交互式地细化数据挖掘请求、动态更改数据焦点、逐步加深数据挖掘过程,以及灵活地在多个抽象级别和从多个角度查看信息和数据挖掘结果。
从不同的数据源挖掘信息 - 广泛可用的本地和广域计算机网络,例如互联网,可以连接各种数据源并形成巨大的分布式异构数据库。从具有不同数据语义的多种格式化或非格式化信息源中挖掘知识对数据挖掘提出了新的要求。
否则,数据挖掘可以帮助揭示异构数据库中的高级数据规律,而这些规律在简单的查询系统中几乎无法发现。此外,数据库的巨大规模、数据的广泛分布以及某些数据挖掘方法的计算复杂性促进了并行和分布式数据挖掘算法的进步。
数据结构
网络
关系型数据库管理系统
操作系统
Java
iOS
HTML
CSS
Android
Python
C 编程
C++
C#
MongoDB
MySQL
Javascript
PHP