ROCK 代表使用链接的鲁棒聚类 (Robust Clustering using links)。它是一种层次聚类算法,分析具有分类属性的数据的链接概念(两个对象之间的公共邻居数量)。它显示这种距离数据在对分类信息进行聚类时无法产生高质量的聚类。此外,大多数聚类算法在聚类时只创建点之间的相似性,即在每一步中,将组合成单个聚类的点。这种“局部”方法容易出现错误。例如,两个不同的聚类可能有一些靠近的点或异常值;因此,依靠点之间的相似性来…… 阅读更多
K-means 算法创建输入参数 k,并将一组 n 个对象划分为 k 个聚类,以便生成的类内相似性很大,但类间相似性很低。聚类相似性是根据聚类中对象的平均值计算的,这可以看作是聚类的质心或重心。K-means 算法如下所示。首先,它可以随机选择 k 个对象,每个对象最初定义一个聚类均值或中心。对于其余每个对象,创建一个对象到它所属的聚类…… 阅读更多
广义线性模型定义了线性回归可用于对分类响应变量建模的理论基础。在广义线性模型中,响应变量 y 的方差是 y 的均值的函数,这与线性回归不同,在线性回归中,y 的方差是常数。广义线性模型 (GLM) 是传统线性模型的扩展。该算法通过最大化对数似然函数来拟合信息中的广义线性模型。弹性网络惩罚可用于参数正则化。模型拟合计算是并行的,非常快,并且对于具有……的模型来说非常有效地扩展 阅读更多