什么是序列模式挖掘?
序列模式挖掘是指挖掘频繁出现的系列事件或子序列作为模式。例如,购买佳能数码相机的用户在一个月内购买惠普彩色打印机的行为就是一个序列模式的实例。
对于零售信息,序列模式有利于货架摆放和促销。这个行业,以及电信和其他企业,也可以利用序列模式进行目标营销、用户留存和各种任务。
序列模式可以应用于多个领域,例如Web访问模式分析、天气预报、生产过程和Web入侵检测。
给定一组序列,其中每个序列包含一系列事件(或元素),每个事件包含一组项目,并给定用户指定的最小支持度阈值min_sup,序列模式挖掘将发现所有频繁子序列,即在序列组中出现频率不低于min_sup的子序列。
设I = {I1, I2,..., Ip} 为所有项目的集合。项集是项目的非空集合。序列是事件的有序序列。序列s表示为{e1, e2, e3 … el},其中事件e1出现在e2之前,e2出现在e3之前,等等。事件ej也称为s的元素。
对于用户购买信息,一个事件定义了一次购物之旅,顾客在特定商店购买商品。事件是一个项集,即顾客在旅途中购买的商品的无序列表。项集(或事件)表示为(x1x2···xq),其中xk是一个项目。
一个项目在一个序列的事件中只能出现一次,但可以在序列的不同事件中多次出现。序列中项目的多次出现称为序列的长度。长度为l的序列称为l-序列。
序列数据库S是一组元组(SID, s),其中SID是序列ID,s是一个序列。例如,S包含商店所有用户的序列。如果α是s的子序列,则元组(SID, s)包含序列α。
序列模式挖掘的这一阶段是对用户购物序列分析的抽象。在此类记录上进行序列模式挖掘的可扩展技术如下:
本阶段无法涵盖序列模式挖掘的多个应用领域。例如,在分析Web点击流序列时,如果需要预测下一次点击的内容,点击之间的间隔就变得至关重要。
在DNA序列分析中,近似模式变得有用,因为DNA序列可能包含(符号)插入、删除和突变。这种多样化的需求可以被视为约束放松或应用。