找到关于数据库的6705篇文章

层次聚类中的元素是什么?

Ginni
更新于 2022年2月14日 11:39:03

199 次浏览

层次聚类方法通过将数据对象合并到一个聚类树中来操作。层次聚类算法是自顶向下或自底向上的。精确的层次聚类技术的特点在于其缺乏调整能力,因为合并或分割决策是已完成的。层次聚类有各种元素,如下所示:缺乏全局目标函数;凝聚层次聚类方法使用多个元素来在每一步局部决定哪些聚类必须合并(或对于分裂方法则分裂)。这种方法产生了聚类算法,避免了解决复杂的组合优化问题的困难。能够处理……阅读更多

什么是凝聚层次聚类?

Ginni
更新于 2022年2月14日 11:36:52

3K+ 次浏览

凝聚层次聚类是一种自底向上的聚类方法,其中聚类具有子聚类,子聚类依次具有子聚类,等等。它从将每个对象放在其自己的聚类中开始,然后将这些原子聚类组合成越来越高的聚类,直到一些对象在一个单一聚类中,或者直到满足某个终止条件。几种层次聚类方法都用于此。它们仅在其对聚类间相似性的描述上有所不同。例如,一种称为 AGNES(凝聚嵌套)的方法需要单链接技术,其操作如下。假设有一组对象放置在一个矩形中。最初,每个对象……阅读更多

什么是二分 K 均值?

Ginni
更新于 2022年2月14日 11:32:59

5K+ 次浏览

二分 K 均值算法是对基本 K 均值算法的一个简单的改进,它依赖于一个简单的概念,例如为了获得 K 个聚类,将一些点的集合分成两个聚类,选择其中一个聚类进行分割,等等,直到产生 K 个聚类。k 均值算法产生输入参数 k,并将一组 n 个对象分成 k 个聚类,以便生成的聚类内相似性很高,而聚类间相似性很低。聚类相似性是根据聚类中对象的平均值来评估的,这可以被视为聚类的……阅读更多

数据挖掘中 K 均值算法的附加问题是什么?

Ginni
更新于 2022年2月14日 10:26:01

9K+ 次浏览

K 均值算法有各种问题,如下所示:处理空聚类 - 之前给出的基本 K 均值算法的第一个问题是,如果在分配阶段没有点分配给聚类,则可能会获得空聚类。如果发生这种情况,则需要一种方法来选择替代质心,因为平方误差将大于必要值。一种方法是选择距离某个最近质心最远的点。如果这去除了当前贡献某些总平方误差的点。另一种方法是选择替代……阅读更多

什么是 K 均值聚类?

Ginni
更新于 2022年2月14日 10:20:04

5K+ 次浏览

K 均值聚类是最常见的划分算法。K 均值将数据集中的每个数据重新分配到新形成的单个聚类中。使用距离或相似性度量将记录或数据点分配给最近的聚类。k 均值算法创建输入参数 k,并将一组 n 个对象分成 k 个聚类,以便生成的聚类内相似性很大,而聚类间相似性很低。聚类相似性是根据聚类中对象的平均值来计算的,这可以被视为聚类的质心或重心。有……阅读更多

数据挖掘中的聚类类型有哪些?

Ginni
更新于 2022年2月14日 10:01:41

588 次浏览

聚类分析用于根据对这些记录进行的各种测量结果,形成相同记录的组或聚类。它可以以对分析目标有益的方式定义聚类。此数据已用于多个领域,例如天文学、考古学、医学、化学、教育、心理学、语言学和社会学。有各种类型的聚类,如下所示:良好分离 - 聚类是一组对象,其中每个元素都比不在聚类中的某些对象更接近聚类中的其他每个元素。有时可以使用阈值……阅读更多

数据挖掘中的聚类类型有哪些?

Ginni
更新于 2022年2月14日 09:59:59

1K+ 次浏览

有各种类型的聚类,如下所示:层次与划分 - 几种聚类类型之间的区别在于聚类集合是嵌套的还是非嵌套的,或者用流行的术语来说,是层次的还是划分的。划分聚类是将一组数据对象分成非重叠子集(聚类)的分布,其中每个数据对象都正好在一个子集中。它允许聚类具有子聚类,因此需要层次聚类,它是一组嵌套的聚类,被指定为树。树中的每个节点(聚类)(除了叶节点)都是……阅读更多

数据挖掘中聚类的例子有哪些?

Ginni
更新于 2022年2月14日 09:56:26

4K+ 次浏览

将一组物理或抽象对象组合成相同对象的类的过程称为聚类。聚类是一组数据对象,它们在同一个聚类中彼此相同,并且与其他聚类中的对象不同。在许多应用程序中,一组数据对象可以被集体视为一个组。聚类分析是一项重要的活动。聚类分析用于根据对这些记录进行的各种测量结果,形成相同记录的组或聚类。关键设计是定义……阅读更多

基于支持期望的技术有哪些?

Ginni
更新于 2022年2月14日 09:54:31

94 次浏览

有两种方法可以使用(概念层次结构和一种称为间接关联的基于邻域的方法)来确定模式的预期支持。基于概念层次结构的支持期望仅凭客观衡量标准不足以消除无趣的非频繁模式。例如,考虑面包和笔记本电脑是频繁出现的商品。即使项目集 {面包,笔记本电脑} 不频繁并且可能负相关,它也不是有趣的,因为它们的缺乏支持对领域专家来说似乎很明显。因此,需要一种主观的方法来确定预期支持,以避免生成这种不频繁的模式。基于间接关联的支持期望考虑一对项目……阅读更多

挖掘负模式的技术有哪些?

Ginni
更新于 2022年2月14日 09:52:28

259 次浏览

第一类挖掘非频繁模式的技术将每个项目视为对称二元变量。事务信息可以通过添加负项进行二值化处理。这展示了一个将初始数据转换为包含正项和负项的事务的实例。通过对增广后的事务使用当前的频繁项集生成算法(包括Apriori),可以导出一些负项集。这种方法只有在将多个变量视为对称二元变量时才有可能(即,它用于包含少量项目否定式的负模式)。如果每个项目应该……阅读更多

广告