什么是距离函数?
距离是MBR计算相似度的方法。对于某些真实的距离度量,从点A到点B的距离,用d(A,B)表示,具有以下四个特征:
定义明确 - 两点之间的距离始终定义明确,并且是非负实数,d (A,B) ≥ 0。
同一性 - 从一个点到它自身的距离始终为零,因此d (A, A) = 0。
交换律 - 方向不会产生差异,因此从A到B的距离与从B到A的距离相同:d(A,B) = d(B,A)。例如,此特性排除了单行道。
三角不等式 - 从A到B的路径上访问中间点C永远不会缩短距离,因此d (A,B) ≥ d(A,C) + d(C,B)。
对于MBR,点当然是数据库中的数据。这种距离描述是计算相似度的基础,但当这些约束中的一些被稍微修改时,MBR也能很好地工作。
例如,新闻报道定义案例研究中的距离函数不可交换,因此从新闻报道A到另一个B的距离并不总是与从B到A的距离相同。但是,相似性度量对于分类目的是有益的。
距离定义明确的事实意味着每个数据在数据库中都有某个地方的邻居,并且MBR需要邻居才能工作。同一性属性使距离符合直观的概念,即给定数据最相似的数据是初始记录本身。
交换律和三角不等式使最近邻局部且定义明确。将新数据插入数据库不会使现有记录更接近。相似性是每次仅保留两个数据的问题。尽管距离度量可以发现最近邻是定义明确的,但最近邻集可能具有一些特殊的特征。
邻居集取决于数据距离函数如何组合区域距离函数。事实上,使用求和函数的第二近邻是使用欧几里得等的最远邻居。与求和或归一化度量相比,欧几里得度量倾向于偏向所有区域都关联接近的邻居。
求和、欧几里得和归一化函数还可以包含权重,以便每个区域对数据距离函数做出不同的贡献。当某些权重等于1时,MBR 通常会产生良好的结果。但是,有时可以使用权重来包含先验知识,包括怀疑对分类有巨大影响的特定字段。