什么是主动学习?
主动学习是一种重复性的监督学习类型,适用于数据充足但类别标签稀缺或获取成本高昂的情况。学习算法是主动的,因为它可以仔细地向用户(例如,人工标注者)查询标签。这种方法用于理解一个概念的多个元组的数量少于典型监督学习中所需的数量。
它用于保持成本降低,主动学习者的目标是利用尽可能少的标记示例来实现高精度。令D为所有正在考虑的数据。有几种方法可以继续对D进行主动学习。
假设D的一个小子集已进行类别标记。此集合由L表示。U是D中未标记数据的集合。它也被定义为未标记数据的池。主动学习者以L作为原始训练集开始。它可以使用查询服务从U中仔细选择一个或多个数据样本,并向人工标注者请求它们的标签。
新标记的样本被插入到L中,学习者在标准监督方法中需要这些样本。该过程继续进行。主动学习的目标是使用尽可能少的标记元组来实现高精度。主动学习算法通常使用学习曲线来计算,学习曲线将精度绘制为查询的多个实例的函数。
一些主动学习研究的目标是如何选择要查询的数据元组。已经提出了各种框架。不确定性采样很常见,其中主动学习者选择查询其对如何标记最不确定的元组。
有几种方法可以减少版本空间,即与观察到的训练元组一致的所有假设的子集。它可以遵循一个决策理论方法来计算预期误差减少。
这可以选择能够导致总预测错误数量最大减少的元组,包括通过降低U上的预期熵。这种方法的影响是计算量更大。
迁移学习的目标是从一个或多个源函数中获取知识,并将该知识应用于目标任务。传统的学习方法为每个新的分类任务构建一个新的分类器,这取决于可用的类别标记训练和测试信息。
迁移学习算法在为新的(目标)任务构建分类器时应用有关源服务的知识。生成的分类器需要更少的训练数据和更少的训练时间。传统的学习算法认为训练数据和测试数据来自相同的分布和相同的特征区域。因此,如果分布发生变化,则此类技术需要从头开始重建模型。