数据挖掘中聚类的要求是什么？

数据挖掘数据库数据结构

数据挖掘中聚类有以下要求：

可扩展性 - 一些聚类算法在小型数据集上效果良好，包括少于数百个数据对象。一个大型数据库可能包含数百万个对象。对给定大型数据集的样本进行聚类会导致部分结果。需要高度可扩展的聚类算法。

能够处理不同类型的属性 - 一些算法被设计用于对基于区间的（数值）信息进行聚类。但是，应用程序可能需要对多种类型的数据进行聚类，包括二元数据、分类（名义）数据和序数数据，或这些数据类型的组合。

发现任意形状的簇 - 一些聚类算法根据欧几里德或曼哈顿距离度量来确定簇。依赖于此类距离度量的算法倾向于发现大小和密度相同的球形簇。但是，簇可以是任何形状。必须开发能够识别任意形状簇的算法。

对确定输入参数的领域知识的要求最少 - 一些聚类算法需要用户在聚类分析中输入特定的参数（包括所需的簇数）。聚类结果可能对输入参数绝对敏感。参数难以确定，尤其是在包含高维对象的数据集的情况下。这不仅给用户带来任务，而且还使聚类质量难以控制。

能够处理噪声数据 - 大多数现实世界的数据库都包含异常值或缺失、未知或错误的信息。某些聚类算法对这种数据很敏感，并可能导致质量较差的簇。

增量聚类和对输入记录顺序的不敏感性 - 一些聚类算法无法将新插入的信息（即数据库更新）包含到当前的聚类结构中，而是必须从头开始确定新的聚类。

一些聚类算法对输入记录的顺序敏感。给定一组数据对象，包括算法可以返回截然不同的聚类，具体取决于输入对象的呈现顺序。必须开发增量聚类算法和对输入顺序不敏感的算法。

高维性 - 数据库或数据仓库可能包含多个维度或属性。一些聚类算法擅长管理低维数据，仅包含两个到三个维度。人眼最擅长确定最多三个维度的聚类质量。它用于查找高维空间中数据对象的簇很复杂，尤其是在处理此类数据可能不足且高度倾斜的情况下。

Ginni

更新于： 2021年11月24日

7K+ 浏览量

开启你的职业生涯

通过完成课程获得认证

广告

© . All rights reserved.