什么是SOM?


SOM代表自组织特征映射。它是一种基于神经网络观点的聚类和数据可视化方法。SOM的目标是发现一组质心(在SOM术语中称为参考向量)并将数据集中的每个对象映射到最支持该对象接近度的质心。在神经网络方法中,每个质心都对应一个神经元。

与增量K均值算法类似,数据对象被逐个处理,最近的质心会被更新。与K均值算法不同的是,SOM在质心上施加了一个拓扑排序,并且附近的质心也会被更新。此外,SOM不会跟踪对象的最近聚类成员关系,并且与K均值算法不同,如果一个对象切换聚类,则不会对旧的聚类质心进行特定更新。

旧的聚类可能位于新聚类的邻域,因此可能会因此被更新。点的处理持续到达到某个预先确定的限制或质心不再发生太大变化为止。SOM方法的最终输出是一组隐式表示聚类的质心。每个聚类包含最接近特定质心的点。

每个质心都生成一对坐标(i, j)。有时,这种网络会用相邻节点之间的连接绘制出来,但这可能会产生误导,因为一个质心对另一个质心的影响是一个用坐标表示的邻域,而不是连接。有几种类型的SOM神经网络,但我们可以将讨论限制在具有矩形或六边形质心组织的二维SOM上。

SOM中使用的质心具有预先确定的拓扑排序关系。在训练过程中,SOM需要每个数据点来更新最近的质心以及在拓扑排序中附近的质心。通过这种方式,SOM为任何给定的数据集生成一个有序的质心集。

换句话说,在SOM网格中彼此靠近的质心比距离较远的质心彼此更密切相关。由于此约束,二维SOM的质心可以被认为位于一个二维曲面上,该曲面试图尽可能地拟合n维数据。

更新于: 2022年2月14日

237 次浏览

开启你的 职业生涯

通过完成课程获得认证

立即开始
广告