什么是二元变量?
二元变量只有两种状态,例如 0 或 1,其中 0 表示变量不存在,1 表示变量存在。例如,给定变量吸烟者来定义患者,1 表示患者吸烟,而 0 表示患者不吸烟。将二元变量视为区间尺度可能会导致误导性的聚类结果。因此,为二元数据定义的方法对于计算差异性至关重要。
有一种方法涉及从给定的二元数据计算差异矩阵。如果一些二元变量被认为具有相似的权重,它可以具有 2x2 列联表,其中 q 是对象 i 和 j 都类似于 1 的变量数,r 是对象 i 类似于 1 但对象 j 类似于 0 的变量数,s 是对象 i 类似于 0 但对象 j 类似于 1 的变量数,t 是对象 i 和 j 都类似于 0 的变量数。变量总数为 p,其中 p = q+r+s+t。
如果二元变量的两种状态都具有同等价值并具有相同的权重,则该二元变量是对称的;也就是说,对哪种结果必须编码为 0 或 1 没有偏好。依赖于对称二元变量的差异性称为对称二元差异性。
如果状态的结果不重要,包括疾病测试的阳性和阴性结果,则二元变量是非对称的。按照惯例,我们将主要结果(通常是最稀有的结果)编码为 1(例如,HIV 阳性),其他结果编码为 0(例如,HIV 阴性)。
给定两个非对称二元变量,两个 1 的并发(正匹配)比两个 0 的并发(负匹配)更重要。因此,此类二元变量被视为“一元”(好像只有一个状态)。
基于此类变量的差异性称为非对称二元差异性,其中多个负匹配 t 被视为不重要,因此在计算中被忽略,如公式所示
$$\mathrm{d(i, j)=\:\frac{r+s}{q+r+s}}$$
计算两个二元变量之间的距离可以依赖于相似性的概念,而不是差异性的概念。例如,对象 i 和 j 之间的非对称二元相似性,或 sim(i, j),可以计算如下,
$$\mathrm{sim(i, j)=\:\frac{q}{q+r+s}=1-d(i,j)}$$。
系数 sim(i, j) 称为 Jaccard 系数。