ROCK 代表使用链接的鲁棒聚类。这是一种层次聚类算法,它分析具有分类属性的数据的链接概念(两个对象之间共同邻居的数量)。它表明这种距离数据在对分类信息进行聚类时不能导致高质量的聚类。此外,大多数聚类算法在聚类时仅创建点之间的相似性,即在每个步骤中,将组合成单个聚类的点。这种“局部”方法容易出错。例如,两个不同的聚类可能有一些靠近的点或异常值;因此,依赖点之间的相似性来……阅读更多
k-means 算法创建输入参数 k,并将 n 个对象的一组划分为 k 个聚类,以便生成的簇内相似度较大,而簇间相似度较低。聚类相似度是根据聚类中对象的平均值计算的,这可以看作是聚类的质心或重心。k-means 算法如下所示。首先,它可以随机选择 k 个对象,每个对象最初定义一个聚类均值或中心。对于其余每个对象,将对象创建到与其最……阅读更多
广义线性模型定义了线性回归可用于对分类响应变量建模的理论基础。在广义线性模型中,响应变量 y 的方差是 y 的平均值的函数,这与线性回归不同,在线性回归中,y 的方差是常数。广义线性模型 (GLM) 是传统线性模型的扩展。该算法通过最大化对数似然来拟合信息中的广义线性模型。弹性网络惩罚可用于参数正则化。模型拟合计算是并行的,非常快,并且对于具有……阅读更多