什么是基于采样的方法?


采样是一种广泛用于处理类别不平衡问题的解决方法。采样的概念是改变示例的分布,以便在训练集中很好地定义稀有类别。有各种采样技术,例如欠采样、过采样以及这两种方法的混合。例如,考虑一个包含 100 个正例和 1000 个反例的数据集。

在欠采样方法中,会选择 100 个反例的随机样本,与所有正例一起提前形成训练集。这种方法的一个问题是,一些有用的反例可能无法被选中用于训练,因此导致模型效果低于最佳。

解决此问题的方法是多次实现欠采样并导出多个分类器,类似于集成学习方法。可以使用集中欠采样方法,其中采样过程会针对应移除的反例(例如,那些远离决策边界的反例)做出明智的选择。

过采样会反映正例,直到训练集具有相同数量的正例和反例。过采样对使用包括决策树在内的分类器开发决策边界的影响。正例被错误分类,因为没有足够的示例来验证形成新的决策边界以独立正例和反例。

但是对于噪声信息,过采样可能会导致模型过拟合,因为多个噪声示例可以被复制多次。过采样不会将一些新数据插入训练集。复制正例可以防止学习算法修剪定义包含一些训练示例的区域(即小析取)的模型的特定部分。更多的正例也会影响模型构建的计算时间增加。

混合方法需要一组欠采样多数类和过采样稀有类以实现统一的类分布。可以使用随机或集中子采样来实现欠采样。可以通过复制当前的正例或在当前正例的邻域生成新的正例来进行过采样。

更新于: 2022年2月11日

362 次浏览

启动你的职业生涯

通过完成课程获得认证

开始学习
广告

© . All rights reserved.