ROCK 代表使用链接的鲁棒聚类。它是一种层次聚类算法,分析具有分类属性的数据的链接概念(两个对象之间共同邻居的数量)。它显示,在对分类信息进行聚类时,此类距离数据不会导致高质量的聚类。此外,大多数聚类算法在聚类时仅创建点之间的相似性,即在每个步骤中,将组合到单个聚类中的点。这种“局部”方法容易出现错误。例如,两个不同的聚类可以有一些靠近的点或异常值;因此,依靠点之间的相似性来... 阅读更多
k 均值算法创建输入参数 k,并将一组 n 个对象划分为 k 个聚类,以便生成的聚类内相似性很大,但聚类间类比性很低。聚类相似性是根据聚类中对象的平均值计算的,可以将其视为聚类的质心或重心。k 均值算法如下进行。首先,它可以随机选择 k 个对象,每个对象最初定义一个聚类均值或中心。对于每个剩余的对象,都会创建一个对象到它所属的聚类... 阅读更多
广义线性模型定义了线性回归可用于对分类响应变量建模的理论依据。在广义线性模型中,响应变量 y 的方差是 y 的平均值的函数,这与线性回归不同,在线性回归中,y 的方差是常数。广义线性模型 (GLM) 是传统线性模型的扩展。该算法通过最大化对数似然函数来拟合广义线性模型。弹性网络惩罚可用于参数正则化。模型拟合计算是并行的,非常快,并且对于具有... 阅读更多