1K+ 次浏览
凝聚聚类是一种自下而上的聚类方法,其中聚类包含子聚类,子聚类又包含子聚类,依次类推。它可以从将每个对象放在其自己的聚类开始,然后将这些原子聚类混合成越来越高的聚类,直到所有对象都在单个聚类中,或者直到满足特定的终止条件。一些层次聚类方法使用这种类型。它们只在它们对聚类间相似性的描述上有所不同。例如,一种称为 AGNES(凝聚嵌套)的方法,使用单链接技术,其操作如下。假设有一组对象放置在一个矩形中。最初,每个对象都…… 阅读更多
564 次浏览
关联规则学习是一种无监督学习方法,它测试一个数据元素对另一个数据元素的依赖性,并进行适当的创建,以使其更有效。它试图发现数据集变量之间的一些有趣关系或关系。它依赖于几个规则来寻找数据库中变量之间的有趣关系。关联规则学习是机器学习的重要技术,它被应用于市场篮分析、Web 使用挖掘、持续生产等。在市场篮分析中,它被许多大型零售商广泛使用,以寻找…… 阅读更多
3K+ 次浏览
概念描述概念描述是一种明确的数据挖掘类型。它定义了一组数据,包括频繁购买者、毕业生候选人等。它描述了数据的特征和比较。当要描述的概念定义为一类对象时,它也称为类描述。这些描述可以在数据特征的支持下确定。数据特征是对目标类数据的总体特征的总结。与特定用户定义的类相关的数据通常通过数据库查询恢复。数据特征的输出可以以…… 阅读更多
722 次浏览
市场篮分析并不代表一种单独的方法,它代表一组与理解销售点交易数据相关的业务问题。市场篮数据是表示三种根本不同的实体的交易数据,例如用户、订单(也称为购买或篮子,或在学术论文中称为项目集)和项目。订单是市场篮数据的组件数据结构。订单描述用户的一次购买事件。这可能与用户在网站上订购多种产品相关,也可能与用户购买一篮子杂货或用户购买几种商品相关…… 阅读更多
4K+ 次浏览
KDD 代表数据库中的知识发现。它定义了从数据中发现知识的广泛过程,并强调了特定数据挖掘技术的更高级别应用。它是几个领域研究人员感兴趣的领域,例如人工智能、机器学习、模式识别、数据库、统计学、专业系统的知识获取以及数据可视化。KDD 过程的主要目标是从大型数据库环境中的信息中提取数据。它通过利用数据挖掘算法来识别被认为是知识的内容来实现这一点。数据库中的知识发现被视为一种程序化、探索性分析和建模…… 阅读更多
8K+ 次浏览
关联规则学习是一种无监督学习方法,它测试一个数据元素对另一个数据元素的依赖性,并进行适当的创建,以使其更有效。它试图发现数据集变量之间的一些有趣关系或关系。它依赖于几个规则来寻找数据库中变量之间的有趣关系。关联规则学习是机器学习的重要技术,它被应用于市场篮分析、Web 使用挖掘、持续生产等。在市场篮分析中,它被许多大型零售商广泛使用…… 阅读更多
5K+ 次浏览
数据挖掘是从大量信息中选择、探索和建模的过程,目的是发现最初未知的规律或关系,从而为数据库所有者获得清晰且有益的结果。数据挖掘是一个跨学科领域,它汇集了一组学科,例如数据库系统、统计学、机器学习、可视化和数据科学。它基于所使用的数据挖掘方法,可以使用来自其他学科的方法,包括神经网络、模糊集和粗糙集理论、知识表示、归纳逻辑编程或高性能计算。它建立在要分析的数据类型…… 阅读更多
501 次浏览
协同过滤是基于内存的推理的一种不同方法,特别适合于支持个性化推荐的应用。协同过滤系统从个人偏好历史开始。距离函数决定相似性取决于偏好重叠,喜欢相同事物的人彼此接近。此外,投票按距离加权,因此较近邻居的投票对认可的影响更大。换句话说,这是一种通过使用同行组的选择来发现适合特定人当前偏好的音乐、书籍、葡萄酒或其他事物的方法…… 阅读更多
224 次浏览
数据挖掘也被定义为数据中的知识发现,这是一种识别数百万数据(特别是结构化数据)之间任何异常、相关性、趋势或模式的技术,以收集可用于商业决策的见解,而这些见解在传统分析中可能被遗漏。数据挖掘的目标是使用复杂的数值算法来查找以前被忽略或未知的事实或数据。数据挖掘类似于数据科学。它是由一个人在特定情况下对特定数据集进行的,并具有目标。此阶段包含几种类型的服务…… 阅读更多
627 次浏览
距离是MBR计算相似性的方法。对于某些真实的距离度量,从点A到点B的距离,用d(A, B)表示,具有四个特征,如下所示:定义明确 - 两点之间的距离始终定义且是非负实数,d(A, B) ≥ 0。同一性 - 从一点到自身的距离始终为零,因此d(A, A) = 0。交换性 - 方向不会产生差异,因此从A到B的距离与从B到A的距离相同:d(A, B) = d(B, A)。这…… 阅读更多