什么是GSP?


GSP代表广义序列模式。它是由Srikant和Agrawal在1996年提出的一种序列模式挖掘方法。它是他们用于普通项集挖掘的开创性算法(称为Apriori)的扩展。GSP需要序列模式的向下闭包性质,并采用多遍、生成-测试的方法。

该算法如下。在数据库的第一次扫描中,它可以发现一些频繁项,即那些具有最小支持度的项。每个项都会产生一个包含该项的1-事件频繁序列。每次后续扫描都以一组种子序列模式和之前扫描中找到的序列模式组开始。

这组种子可以创建新的潜在频繁模式,称为候选序列。每个候选序列都比创建它的种子序列模式多包含一个项(其中模式中的每个事件可以包含一个或多个项)。

序列中项目的多个实例是序列的高度。因此,给定扫描中的一些候选序列将具有相同的高度。它将长度为k的序列定义为k-序列。

令Ck表示候选k-序列的集合。对数据库进行扫描可以发现每个候选k-序列的支持度。Ck中具有最小min_sup的候选构成Lk,即所有频繁k-序列的集合。此集合成为下一遍(k+1)的种子集。当在某一扫描中没有发现新的序列模式,或者无法创建任何候选序列时,算法停止。

GSP使用Apriori属性来缩短候选集,如下所示。在第k遍扫描中,一个序列只有在其所有长度为(k −1)的子序列都是(k −1)遍扫描中发现的序列模式时,才成为候选序列。

对数据库进行新的扫描可以收集每个候选序列的支持度并发现一组新的序列模式,Lk。此集合成为下一遍扫描的种子。当在某一扫描中没有发现序列模式或没有创建任何候选序列时,算法停止。

类似Apriori的序列模式挖掘技术(基于候选生成和测试)也可以通过将序列数据库转换为垂直数据格式来分析。在垂直数据格式中,数据库转换为一组形式为(项集:(序列ID,事件ID))的元组。

事件标识符作为序列中的时间戳提供。序列中第i个项集(或事件)的event_ID为i。一个项集可以出现在多个序列中。给定项集组合的(序列ID,事件ID)集形成该项集的ID_list。

更新时间: 2022年2月17日

691 次浏览

开启你的 职业生涯

通过完成课程获得认证

开始学习
广告