模式挖掘的应用有哪些?
模式挖掘有各种各样的应用,如下所示:
模式挖掘通常用作多个数据密集型应用中预处理的噪声过滤和数据清理。例如,它可用于探索微阵列数据,其中包含数万个维度(例如,描述基因)。
模式挖掘有助于发现隐藏在数据中的内在机制和聚类。例如,给定 DBLP 数据集,频繁模式挖掘可以简单地发现有趣的聚类,例如合著者聚类(通过确定通常合作的作者)和会议聚类(通过确定多个作者和术语的共享)。这种架构或聚类发现可用作其他复杂数据挖掘的预处理。
频繁模式可有效用于高维空间的子空间聚类。在高维空间中,聚类比较困难,因为两个对象之间的距离难以衡量。这是因为这种距离受对象所占据的多个维度集所支配。
模式分析有利于时空信息、时间序列数据、图像数据、视频数据和多媒体数据的分析。时空数据分析的一个应用是共位模式分析。这些可以帮助确定特定疾病是否与特定对象(如井、医院或河流)在地域上共位。
在时间序列数据分析中,研究人员已将时间序列值离散化为多个区间,因此可以忽略小的波动和值差异。数据可以总结为顺序模式,这些模式可以被索引以简化相似性搜索或比较分析。
在图像分析和模式识别中,研究人员还将经常出现的视觉片段有序地作为视觉词,可用于有效的聚类、分类和比较分析。
模式挖掘已用于分析包括树、图、子序列和网络在内的序列或结构化数据。在软件工程中,研究人员已将代码执行中的连续或间隙子序列作为顺序模式,以支持识别软件错误。
大型软件程序中的复制粘贴错误可以通过源代码的扩展顺序模式分析来识别。剽窃的软件程序可以根据其基本相同的程序流程/循环机制来识别。
频繁和判别模式可用作原始索引机制(称为图索引)以提供搜索大型、复杂、结构化数据集和网络。这些提供了图结构化数据(包括化学化合物数据库或 XML 结构化数据库)中的相似性搜索。此类模式可用于数据压缩和描述。