数据挖掘中聚类的要求是什么?
数据挖掘中聚类有以下要求:
可扩展性 - 一些聚类算法在小型数据集上效果良好,包括少于数百个数据对象。一个大型数据库可能包含数百万个对象。对给定大型数据集的样本进行聚类会导致部分结果。需要高度可扩展的聚类算法。
能够处理不同类型的属性 - 一些算法被设计用于对基于区间的(数值)信息进行聚类。但是,应用程序可能需要对多种类型的数据进行聚类,包括二元数据、分类(名义)数据和序数数据,或这些数据类型的组合。
发现任意形状的簇 - 一些聚类算法根据欧几里德或曼哈顿距离度量来确定簇。依赖于此类距离度量的算法倾向于发现大小和密度相同的球形簇。但是,簇可以是任何形状。必须开发能够识别任意形状簇的算法。
对确定输入参数的领域知识的要求最少 - 一些聚类算法需要用户在聚类分析中输入特定的参数(包括所需的簇数)。聚类结果可能对输入参数绝对敏感。参数难以确定,尤其是在包含高维对象的数据集的情况下。这不仅给用户带来任务,而且还使聚类质量难以控制。
能够处理噪声数据 - 大多数现实世界的数据库都包含异常值或缺失、未知或错误的信息。某些聚类算法对这种数据很敏感,并可能导致质量较差的簇。
增量聚类和对输入记录顺序的不敏感性 - 一些聚类算法无法将新插入的信息(即数据库更新)包含到当前的聚类结构中,而是必须从头开始确定新的聚类。
一些聚类算法对输入记录的顺序敏感。给定一组数据对象,包括算法可以返回截然不同的聚类,具体取决于输入对象的呈现顺序。必须开发增量聚类算法和对输入顺序不敏感的算法。
高维性 - 数据库或数据仓库可能包含多个维度或属性。一些聚类算法擅长管理低维数据,仅包含两个到三个维度。人眼最擅长确定最多三个维度的聚类质量。它用于查找高维空间中数据对象的簇很复杂,尤其是在处理此类数据可能不足且高度倾斜的情况下。
广告