相似度度量的应用是什么?
相似度度量提供了某些数据挖掘决策所依据的框架。分类和聚类等任务通常会考虑某些相似度度量是否存在,而缺乏评估相似度的有效技术的领域通常会发现信息搜索是一个繁琐的功能。
相似度度量有以下几个应用:
**信息检索** - 信息检索 (IR) 系统的目标是满足用户的需求。换句话说,需求通常以在线搜索引擎文本框中输入的简短文本查询的形式表现出来。IR 系统通常不会直接回答查询,而是提供一个排名列表,其中包含一些被某些相似度度量判断为与该查询相关的记录。
由于相似度度量具有聚类和分类有关查询的信息的效果,因此用户通常会发现其信息需求的新解释,这些解释在重新制定其查询时可能对他们有用,也可能对他们无用。
在查询是初始集合中记录的情况下,相似度度量可用于聚类和分类集合中的记录。简而言之,相似度度量可以为以前未结构化的集合插入一个基本的架构。
动机
在 IR 系统中使用的相似度度量可能会扭曲人们对整个数据集的感知。例如,如果用户在搜索引擎中输入查询,并且在返回的前十个网页中没有找到令人满意的答案,那么他们通常会尝试一两次重新制定此查询。
经典的相似度度量
相似度度量被定义为从大小为 k 的一对元组到标量数的映射。按照惯例,所有相似度度量都必须映射到范围 [-1, 1] 或 [0, 1],其中相似度得分为 1 表示最大相似度。相似度度量应表现出其值随着比较的两个项目中多个属性的增加而增加的特征。
Dice 系数
Dice 系数是精确率和召回率度量调和平均数的推广。从理论上讲,具有高调和平均数的系统更接近理想的检索系统,因为它可以在高召回率水平上管理高精确率值。精确率和召回率的调和平均数由下式给出:
$$E=\frac{2}{\frac{1}{P}+\frac{1}{R}}$$
而 Dice 系数表示为:
$$sim(d,d_{j})=D(A,B)=\frac{|A\cap B|}{\alpha|A|+(1-\alpha)|B|}\cong \frac{\propto \sum_{k=1}^{n}w_{kq}w_{kj}}{\propto \sum_{k=1}^{n}\mathrm{w}_{kq}^{2}+(1-\propto)\sum_{k=1}^{n}\mathrm{w}_{kj}^{2}}$$
其中 α ε [0, 1]。可以看出 Dice 系数是加权调和平均数,令 α = ½。
重叠系数
重叠系数试图确定两个集合重叠的程度。重叠系数的比较如下:
$$sim(d,d_{j})=D(A,B)=\frac{|A\cap B|}{min(|A|,|B|)}\cong \frac{\propto \sum_{k=1}^{n}w_{kq}w_{kj}}{\propto \sum_{k=1}^{n}\mathrm{w}_{kq}^{2}+\sum_{k=1}^{n}\mathrm{w}_{kj}^{2}}$$
重叠系数是使用 max 运算符而不是 min 运算符计算的。