数据挖掘在科学和工程中的作用是什么?
数据挖掘在科学和工程中有多种作用,如下所示:
数据仓库和数据预处理 − 数据预处理和数据仓库对于数据交换和数据挖掘非常重要。构建数据仓库需要发现解决在多个环境和多个时间段收集的不一致或不兼容信息的方法。
这需要协调语义、引用系统、数学、测量、效率和精度。需要方法来集成来自异构数据源的数据并识别事件。
挖掘复杂数据类型 − 数值数据集本质上是异构的。它们通常包含半结构化和非结构化数据,包括多媒体数据和地理参考流数据,以及具有复杂、深度隐藏语义的数据(例如基因组和蛋白质组记录)。
需要稳健且专用的分析方法来管理时空数据、生物数据、相关的概念层次结构和复杂的语义关系。
基于图和网络的挖掘 − 在图或网络建模中,每个要挖掘的对象由图中的一个顶点定义,顶点之间的边定义了对象之间的关系。例如,可以使用图来模拟化学结构、生物途径以及包括流体流动模拟在内的整数模拟产生的数据。
基于图或网络建模的成功取决于多种基于图的数据挖掘服务的可扩展性和有效性的改进,包括分类、频繁模式挖掘和聚类。
可视化工具和领域特定知识 − 数学数据挖掘系统需要高级图形用户界面和可视化工具。这些必须与当前的领域特定数据和数据系统相统一,以帮助研究人员和普通用户查找模式、表示和可视化发现的模式,并在其决策中利用发现的知识。
工程中的数据挖掘与科学中的数据挖掘有许多相似之处。这两种实践都收集大量数据,并需要数据预处理、数据仓库以及对复杂类型数据的可扩展挖掘。两者通常都使用可视化并充分利用图形和网络。此外,许多工程流程需要实时响应,因此实时挖掘数据流通常成为一个必不可少的组成部分。
大量的人际交往数据涌入我们的日常生活。这种交流以多种形式存在,例如新闻、博客、文章、网页、在线讨论、产品评论、推特、消息、广播和通信,无论是在互联网上还是在各种社交网络上。
因此,社会科学和社会研究中的数据挖掘越来越受欢迎。此外,可以探索客户或读者对产品、演讲和文章的反馈,以推断社会中这些人的普遍观点和情绪。分析结果可用于预测趋势、改进工作并支持决策。