ROCK 代表使用链接的鲁棒聚类。它是一种层次聚类算法,分析具有分类属性的数据的链接概念(两个对象之间共同邻居的数量)。它表明这种距离数据在对分类信息进行聚类时无法导致高质量的聚类。此外,大多数聚类算法在聚类时仅创建点之间的相似性,即在每一步中,组合成单个聚类的点。这种“局部”方法容易出现错误。例如,两个不同的集群可以有一些靠近的点或异常值;因此,依赖于点之间的相似性来……阅读更多
k-means 算法创建输入参数 k,并将一组 n 个对象分成 k 个集群,以便生成的集群内相似性较大,而集群间相似性较低。集群相似性是根据集群中对象的平均值计算的,这可以看作是集群的质心或重心。k-means 算法如下所示。首先,它可以随机选择 k 个对象,每个对象最初定义一个集群均值或中心。对于其余每个对象,创建一个对象到它所属的集群……阅读更多
广义线性模型定义了线性回归可用于对分类响应变量建模的理论基础。在广义线性模型中,响应变量 y 的方差是 y 的平均值的函数,这与线性回归不同,在线性回归中,y 的方差是常数。广义线性模型 (GLM) 是传统线性模型的扩展。此算法通过最大化对数似然函数来拟合信息中的广义线性模型。弹性网络惩罚可用于参数正则化。模型拟合计算是并行的、非常快的,并且对于具有……阅读更多