数据流聚类的 методологии 是什么?
数据流聚类是指对持续不断出现的数据进行聚类,这些数据包括电话数据、多媒体数据、货币交易等。数据流聚类通常被视为一种流算法,其目标是在给定一系列点的情况下,利用少量内存和时间来对数据流进行最佳聚类。
一些应用程序需要根据数据的相似性将其自动聚类到集合中。例如,用于网络入侵检测、分析网络点击流和股票市场分析的应用程序。
有几种动态方法可以对静态数据集进行聚类,而对数据流进行聚类则对这些算法提出了额外的要求。可以看出,数据流计算模型需要算法对数据进行单遍扫描,具有有限的内存和确定的处理时间,而数据流可能是高度动态的,并且会随着时间推移而不断发展。
数据流聚类有几种方法,如下所示:
计算并存储过去数据的摘要 − 由于内存空间有限且需要快速响应,因此计算先前查看数据的摘要,保存相关结果,并在需要时使用这些摘要来计算重要统计数据。
应用分治策略 − 可以根据到达顺序将数据流划分为块,计算这些块的摘要,然后合并这些摘要。在这种方法中,可以从较小的构建块构建较高级别的模型。
传入数据流的增量聚类 − 由于流数据不断且增量地引入系统,因此应该增量地改进集群的更改。
执行微聚类和宏聚类分析 − 流集群的计算可以分为两个步骤:
可以计算和存储微集群级别的摘要,其中微集群是通过应用分层自下而上的聚类算法形成的。
可以在用户指定的级别计算宏集群(例如,使用另一种聚类算法对微集群进行分组)。此两步计算有效地压缩了数据,并在较小的误差范围内提供结果。
探索用于分析集群演变的多种时间粒度 − 由于较新的数据通常与远程(即较旧的)数据在流数据分析中扮演不同的角色,因此使用倾斜时间框架模型来存储不同时间点的摘要数据快照。
将流聚类划分为在线和离线过程 − 当数据流入时,应计算、存储和增量更新数据快照的基本摘要。
因此,需要一个在线过程来维护这些动态变化的集群。同时,用户可以提出查询以询问过去、当前或正在发展的集群。此类分析可以离线执行,或者作为独立于在线集群维护的过程执行。