构建集成分类器的有哪些方法?
其核心思想是从初始数据构建多个分类器,然后在描述未知样本时聚合它们的预测结果。集成分类器的构建方法如下:
**通过操作训练集**——这种方法通过根据某种采样分布对初始数据进行重采样来生成多个训练集。采样分布决定了样本被选入训练集的概率,并且在不同的试验中可以变化。使用特定的学习算法从每个训练集中构建一个分类器。Bagging和Boosting是操作训练集的集成方法的实例。
**通过操作输入特征**——这种方法选择输入特征的子集来形成每个训练集。子集可以选择随机,或者依赖于领域专家的建议。多项研究表明,这种方法在包含大量冗余特征的数据集中效果非常好。随机森林是一种操作输入特征的集成技术,它需要决策树作为其基本分类器。
**通过操作类别标签**——当多个类别足够大的时候可以使用这种方法。通过随机将类别标签细分为两个不相交的子集(例如A0和A1),将训练数据转换为二元分类问题。
将类别标签属于子集A0的训练样本定义为类别0,而将类别标签属于子集A1的训练样本定义为类别1。重新标记的样本用于训练基本分类器。通过反复进行类别重新标记和模型构建步骤多次,可以获得基本分类器的集成。
当出现测试样本时,每个基本分类器Ci都可以预测其类别标签。如果测试样本被预测为类别0,那么所有属于A0的类别都将获得一票。
**通过操作学习算法**——可以操作多种学习算法,使得在相同的训练数据上多次使用该算法可以产生多个模型。例如,人工神经网络可以通过修改其网络拓扑结构或神经元之间连接的初始权重来创建多个模型。类似地,可以通过在树生长过程中注入随机性来组装决策树的集成。
前三种方法是一些分类器通用的技术,而第四种方法是基于所使用的分类器类型。基本分类器的方法可以顺序地(一个接一个)或并行地(同时)创建。
第一步是从初始数据D生成训练集。根据所使用的集成方法类型,训练集与D完全相同或略有不同。训练集的大小保持与初始数据相同,但样本的分布可能不相同,即某些样本在训练集中可能出现多次,而其他样本可能一次也不出现。