什么是基于实例的表示?
学习最简单的结构是简单的记忆,或死记硬背。因为已经记住了一组训练实例,所以在遇到一个新的实例时,会检查内存中与新实例最相似的训练实例。
唯一的问题是如何阐明相似。首先,这是一种完全不同的描述从一组实例中提取的“知识”的方法——它存储实例本身,并通过将类未知的新实例与类已知的当前实例关联来工作。与其尝试制定规则,不如直接从实例本身入手。这称为基于实例的学习。
在基于实例的学习中,所有实际工作都是在出现定义新实例的时间完成的,而不是在处理训练集时完成的。这种方法与其他方法的区别在于“学习”发生的时间。
基于实例的学习是被动的,推迟了考虑可能的实际工作,而其他方法则是积极的,一旦看到数据就会进行泛化。在基于实例的分类中,每个新实例都使用距离度量与当前实例区分开来,并使用最近的现有实例来确定新实例的类别。这被称为最近邻分类方法。
有时会使用多个最近邻,并且最近的 k 个邻域(如果类别是数值型,则为距离加权平均值)中的多数类别将被创建到新实例中。这被定义为 k-最近邻方法。
当名义属性存在时,必须提出该属性多个值之间的“距离”。各种属性将比其他属性更重要,并且通常通过几种类型的属性加权在距离度量中反映出来。从训练组中更改合适的属性权重是基于实例的学习中的一个重要问题。
基于实例的表示的一个明显的局限性是它们没有创建显式学习的架构。实例与距离度量相结合,将边界划分为实例区域,这些区域分析一个类别与另一个类别的区别,这是一种显式知识描述的类型。
例如,给定每个两个类别中的一个实例,最近邻规则有效地沿着连接实例的线的垂直平分线划分实例区域。给定每个类别中的多个实例,空间将被一组线分割,这些线定义了连接一个类别的实例与另一个类别的实例的选定线的垂直平分线。
广告