半监督学习

半监督学习是一种既不是完全监督也不是完全无监督的机器学习类型。半监督学习算法基本上介于监督学习和无监督学习方法之间。

在半监督学习中，机器学习算法在包含标记数据和未标记数据的的数据集上进行训练。当我们有大量可用的未标记数据时，通常会使用半监督学习。在任何监督学习算法中，可用数据都必须手动标记，这可能是一个相当昂贵的过程。相比之下，在无监督学习中使用的未标记数据应用有限。因此，开发了半监督学习算法，它可以在两者之间取得完美的平衡。

什么是半监督学习？

半监督学习是一种机器学习方法或技术，它结合了监督学习和无监督学习。在半监督学习中，机器学习算法在少量标记数据和大量未标记数据上进行训练。

半监督学习的目标是开发一种算法，将整个数据划分成不同的集群，并且彼此靠近的数据点很可能共享相同的输出标签，然后将集群分类到预定义的类别中。

我们可以将半监督学习总结为：

一种机器学习方法或技术，
结合了监督学习和无监督学习，
通过使用标记数据和未标记数据来训练ML模型，
以执行分类和回归相关的任务。

半监督学习与监督学习

监督学习和半监督学习之间的主要区别在于用于训练模型的数据集。在监督学习中，模型在由输入和与其配对的预定义标签组成的数据集上进行训练，即提供特征及其对应的目标标签。这允许更准确的预测或分类。而半监督学习的数据集由少量标记数据和大量未标记数据组成。模型最初在标记数据上进行训练，然后使用这些见解来训练未标记数据以发现额外的模式。

半监督学习与无监督学习

无监督学习仅在未标记的数据集上训练模型，旨在识别数据集中具有共同特征的组。相比之下，半监督学习使用标记数据（少量）和未标记数据（大量）的混合。在无监督学习中，数据集中的数据点根据共同特征分组到集群中，而半监督学习效率更高，因为每个集群都被分配了一个预定义的标签，因为它在标记数据和未标记数据上进行训练。

何时选择半监督学习？

在难以且昂贵地获得足够数量的标记数据，但收集未标记数据更容易的情况下。在这种情况下，完全监督或无监督学习方法都不能提供准确的结果。这就是可以实现半监督学习方法的地方。

半监督学习是如何工作的？

半监督学习通常使用小的监督学习组件，即少量预标记的注释数据和大型无监督学习组件，即大量未标记数据用于训练。

在机器学习中，我们可以遵循以下任何方法来实现半监督学习方法：

第一种简单的方法是基于少量标记和注释的数据构建监督模型，然后通过将其应用于大量未标记数据来构建无监督模型以获得更多标记样本。现在，在它们上训练模型并重复该过程。
第二种方法需要一些额外的努力。在这种方法中，我们首先可以使用无监督方法对类似的数据样本进行聚类，注释这些组，然后使用此信息的组合来训练模型。

在半监督学习中，使用的未标记数据应该与模型训练执行的任务相关。从数学角度来看，输入数据的分布p(x)必须包含关于后验分布p(y|x)的信息，该信息表示给定数据点(x)属于某个类别(y)的概率。

半监督学习的工作原理存在某些假设，例如：

平滑性假设
聚类假设
低密度分离
流形假设

让我们简要了解上述假设。

平滑性假设

此假设指出，高密度区域（属于同一集群）中的两个数据点x1和x2接近，因此对应的输出标签y1和y2也应该接近。另一方面，如果数据点位于低密度区域，则它们的输出不必接近。

聚类假设

聚类假设指出，当数据点位于同一集群中时，它们很可能属于同一类别。未标记数据应该有助于使用聚类算法更准确地找到每个集群的边界。此外，标记数据点应该用于为每个集群分配一个类别。

低密度分离

低密度分离假设指出，决策边界应该位于低密度区域。例如，考虑数字识别，人们希望将手写数字“0”与数字“1”区分开来。从决策边界精确获取的样本点将位于0和1之间，很可能是一个看起来像非常细长的零的数字。但有人写下这个“奇怪”数字的概率非常小。

流形假设

此假设构成了几种半监督学习方法的基础，它指出在高维输入空间中，存在几个低维流形，所有数据点都存在于其中，并且具有相同标签的数据点位于同一流形上。

半监督学习技术

半监督学习使用多种技术来充分利用标记数据和未标记数据，以获得准确的结果。一些流行的技术包括：

自训练

自训练是一个过程，其中任何监督方法（如分类和回归）都可以修改为以半监督方式工作，从标记数据和未标记数据中获取见解。

协同训练

这种方法是自训练方法的改进版本，其思想是利用待分类数据的不同“视图”。这理想地用于网页内容分类，其中网页可以用页面上的文本表示，也可以用引用页面的超链接表示。与典型过程不同，协同训练方法基于数据的两个视图训练两个单独的分类器，以提高学习性能。

基于图的标签传播

运行半监督学习最有效的方法是将数据建模为图，其中节点表示数据点，边表示它们之间的相似性，然后应用标签传播算法。在这种方法中，标记数据点通过图传播其标签，影响相邻节点。标签被迭代更新，允许模型为未标记节点分配标签。

半监督学习的挑战

半监督学习只需要少量标记数据以及大量未标记数据，从而降低了手动标记的成本和需求。相比之下，还有一些挑战需要解决，例如：

数据质量 - 半监督学习的效率取决于未标记数据的质量。如果未标记数据嘈杂或不相关，则可能导致不正确的预测和性能下降。
数据差异 − 半监督学习模型更容易受到标记数据和未标记数据之间分布差异的影响。例如，如果模型训练的标记数据集包含清晰的高质量图像，而未标记数据包含从监控摄像头捕获的图像，则难以从标记图像泛化到未标记图像，从而影响结果。

半监督学习的应用

半监督机器学习应用于文本分类、图像分类、语音分析、异常检测等领域，其总体目标是将实体分类到预定义的类别中。半监督算法假设数据可以划分为离散的集群，并且彼此更接近的数据点更有可能共享相同的输出标签。

一些半监督学习的流行应用包括：

语音识别 − 标记音频数据是一项耗时的任务，半监督技术通过结合未标记音频数据和有限的转录语音来改进语音模型。这提高了语音识别准确性。
网页内容分类 − 对于数十亿个网站，手动标记内容是不切实际的。半监督学习有助于高效地对网页内容进行分类，从而改进像 Google 这样的搜索引擎的排名，并向用户查询提供相关内容。
文本文档分类 − 半监督学习用于通过训练少量标记文档和大量未标记文本语料库来对文本进行分类。模型首先从标记数据中学习以获得见解，然后将其用于对文本进行分类。这种学习方法有助于提高分类准确性，而无需大量的标记数据集。

打印页面