什么是自组织映射 - Kohonen 映射?
介绍
Kohonen 最初提出了自组织映射 (SOM) 的概念。由于它是一种无监督神经网络,使用无监督学习方法进行训练,以从训练样本的输入空间创建低维离散表示,因此它是一种最小化数据维数的方法。该表示通常被称为映射。
本文将介绍 Kohonen 映射入门指南,这是一种著名的自组织映射。首先,让我们定义什么是自组织映射。
自组织映射
自组织映射,也称为 Kohonen 映射或 SOM,是一种人工神经网络,其灵感来自于 20 世纪 70 年代的神经系统生物模型。它使用竞争学习算法和无监督学习方法训练其网络。SOM 用于映射和聚类(或降维)过程,将多维数据映射到低维空间,以简化复杂情况,便于理解。SOM 由两层组成:输入层和输出层。它也称为 Kohonen 映射。
自组织映射 (SOM) 是一种用于无监督学习的神经网络。SOM 也被称为 Kohonen 映射,以其发明者 Teuvo Kohonen 的名字命名。SOM 用于将高维数据映射到低维空间,特别适用于可视化和理解复杂数据集。
SOM 的基本结构是一个二维节点网格,其中每个节点表示低维空间中的一个点。然后将数据点映射到网格中的节点,相似的点映射到附近的节点。SOM 算法使用竞争学习过程,其中节点竞争成为给定数据点的最佳匹配。这种竞争导致节点调整其权重,随着时间的推移,节点将自组织成数据的映射。
SOM 的主要优点之一是它能够保留数据的拓扑结构。这意味着相似的点将映射到附近的节点,而不相似的点将映射到较远的节点。这使得 SOM 非常适合于数据可视化,因为生成的映射易于解释。SOM 也用于降维,因为它们可以用于将高维数据映射到低维空间。
SOM 也用于聚类,因为网格中的节点可以根据其与数据点的相似性进行分组。这允许发现数据中可能并不立即显而易见的模式和结构。SOM 也可用于异常检测,因为与其余数据不相似的数据点将映射到较远的节点。
SOM 具有广泛的应用,包括图像处理、自然语言处理和生物信息学。在图像处理中,SOM 可用于根据其特征对图像进行分类。在自然语言处理中,SOM 可用于根据其内容对文本文档进行分类。在生物信息学中,SOM 可用于聚类和可视化基因表达数据。
SOM 有几种变体,例如 Growing SOM 和 Adaptive SOM。Growing SOM 可以根据需要添加或删除网格中的节点,而 Adaptive SOM 可以调整网格的大小以更好地匹配数据。
SOM 也有一些局限性,例如需要大量数据点才能获得准确的结果,以及一旦训练完成就难以更新映射。SOM 还需要大量的计算资源,并且可能对初始条件敏感。
SOM 的工作原理
假设一个输入集合的维度为 (m, n),其中 m 表示每个样本具有的特征数量,n 是训练样本的总数。第一步是初始化大小为 (n, C) 的权重,其中 C 是聚类的数量。在遍历每个训练样本的输入数据后,更新获胜向量(例如,与训练样本距离最短的权重向量,例如欧几里德距离)。权重更新公式如下:
wij = wij(old) + alpha(t) * (xik - wij(old))
这里,i 表示训练样本的第 i 个特征,j 表示获胜向量,alpha 表示时间 t 的学习率,k 表示输入数据中的第 k 个训练样本。SOM 网络已经过训练,新的样本使用训练后的权重进行聚类。我们将一个新的样本添加到我们的有效向量库中。
算法
步骤 1 - 将每个节点权重 w_ij 初始化为随机值。
步骤 2 - 随机选择输入向量 x k。
步骤 3 - 对映射上的每个节点重复步骤 4 和 5。
步骤 4 - 确定连接到第一个节点的权重向量 w_ij 与输入向量 x(t) 之间的欧几里德距离,其中 t、i 和 j 都等于 0。
步骤 5 - 注意产生最小 t 距离的节点。
步骤 6 - 在步骤六中进行全局最佳匹配单元 (BMU) 计算。它描述了所有其他计算节点与之相关的节点。
步骤 7 - 找到 Kohonen 映射的拓扑邻域及其半径。
SOM 的应用
自组织映射具有保留训练数据结构数据的优点,即使它们并不总是线性的。当应用于大维数据时,主成分分析在将维度降低到二维时可能会导致数据丢失。在数据具有多个维度并且每个预定维度都很重要的案例中,自组织映射可以作为 PCA 的一种很好的降维替代方法。地震相分析根据多个单个特征的识别对特征进行分组。通过查找数据集中特征的组织,这种方法会产生组织的关系集群。
结论
总之,自组织映射 (SOM) 是一种强大的无监督学习工具,可用于可视化、理解和提取高维数据中的有意义信息。SOM 可以保留数据的拓扑结构,使其易于解释,并且可用于聚类、降维、异常检测等。与大多数机器学习技术一样,SOM 也有其局限性,但是使用正确的数据和实现方法,它可以成为任何数据科学家工具箱中的一个宝贵工具。