最近邻分类器的特点是什么?


最近邻规则通常能产生高性能,无需对训练实例所取自的分配做出任何先验假设。它包含正例和反例的训练集。新样本的分类通过计算其到最近训练样本的距离来确定;该点的符号决定样本的分类。

k-NN 分类器通过取 k 个最近的点并取多数的符号来改进这一概念。通常选择 k 为小奇数以避免平局(通常为 1、3 或 5)。较大的 k 值有助于减少训练数据集中噪点的影响,k 的选择是通过交叉验证来实现的。

最近邻算法有以下几个特点:

最近邻分类是更通用的基于实例学习方法的一个组成部分。它需要具体的训练实例来进行预测,而无需构建从数据中导出的抽象(或模型)。

基于实例的学习算法需要一种邻近度度量来确定实例之间的相似性或距离,以及一个分类函数,该函数根据测试实例与其他实例的邻近度来确定测试实例的预测类别。

包括最近邻分类器在内的懒惰学习器不需要构建模型。但是,定义一个测试示例可能相当耗时,因为需要分别计算测试示例和训练示例之间的邻近度值。相反,热切学习器将它们的计算资源用于构建模型。由于模型已经构建好,因此定义测试示例非常快速。

最近邻分类器根据局部数据进行预测,而决策树和基于规则的分类器则试图发现适合整个输入空间的全局模型。由于分类决策是在局部做出的,因此最近邻分类器容易受噪声的影响。

最近邻分类器可以创建任意形状的决策边界。这种边界支持比决策树和基于规则的分类器(它们被限制为直线决策边界)更具动态性的模型表示。

除非采取适当的邻近度度量和数据预处理步骤,否则最近邻分类器可能会做出错误的预测。例如,假设需要根据身高(米)和体重(磅)等属性来对一组人进行分类。

身高属性的变化较小,范围从 1.5 米到 1.85 米,而体重属性的范围可以从 90 磅到 250 磅。如果不考虑属性的尺度,则邻近度度量可能会被人的体重差异所支配。

更新于:2022年2月11日

2K+ 次浏览

开启你的职业生涯

完成课程获得认证

开始学习
广告