1K+ 次浏览
凝聚聚类是一种自下而上的聚类方法,其中聚类包含子聚类,子聚类又包含子聚类,等等。它可以从将每个对象放在其自己的聚类开始,然后将这些原子聚类混合成越来越高的聚类,直到所有对象都在单个聚类中,或者直到满足确定的终止条件。一些层次聚类方法使用这种类型。它们仅在其对聚类间相似性的描述上有所不同。例如,一种称为 AGNES(凝聚嵌套)的方法,需要单链接技术并按如下方式操作。假设有一组对象放在一个矩形中。最初,每个对象都在……阅读更多
564 次浏览
关联规则学习是一种无监督学习方法,它测试一个数据元素对另一个数据元素的依赖性,并进行适当的创建以使其更有效。它试图发现数据集变量之间的一些有趣关系或关系。它依赖于几条规则来查找数据库中变量之间的有趣关系。关联规则学习是机器学习的重要技术,它被应用于市场篮分析、Web 使用挖掘、连续生产等。在市场篮分析中,它被许多大型零售商充分使用以查找……阅读更多
3K+ 次浏览
概念描述概念描述是一种明确的数据挖掘类型。它定义了一组数据,包括频繁购买者、研究生候选人等。它描述了数据的特征和比较。当要描述的概念定义为一类对象时,它也称为类描述。这些描述可以借助数据特征化来确定。数据特征化是对目标类数据的总体特征的总结。与特定用户定义类相关的数据通常通过数据库查询恢复。数据特征化的输出可以以……阅读更多
722 次浏览
市场篮分析并不代表一种单独的方法,它代表着一组与理解销售点交易数据相关的业务问题。市场篮数据是代表三种根本不同的实体的交易数据,例如用户、订单(也称为购买或篮子,或在学术论文中称为项目集)和项目。订单是市场篮数据的组件数据结构。订单描述用户的一次购买事件。这可能与用户在网站上订购多种产品相关,也可能与用户购买一篮子杂货或用户购买多种商品相关……阅读更多
4K+ 次浏览
KDD 代表数据库中的知识发现。它定义了在数据中发现知识的广泛过程,并强调了特定数据挖掘技术的顶级应用。它是几个领域的研究人员感兴趣的领域,例如人工智能、机器学习、模式识别、数据库、统计学、专业系统的知识获取以及数据可视化。KDD 过程的主要目标是从大型数据库环境中的信息中提取数据。它通过利用数据挖掘算法来识别被认为是知识的内容来实现这一点。数据库中的知识发现被视为一种程序化、探索性分析和建模……阅读更多
8K+ 次浏览
关联规则学习是一种无监督学习方法,它测试一个数据元素对另一个数据元素的依赖性,并进行适当的创建以使其更有效。它试图发现数据集变量之间的一些有趣关系或关系。它依赖于几条规则来查找数据库中变量之间的有趣关系。关联规则学习是机器学习的重要技术,它被应用于市场篮分析、Web 使用挖掘、连续生产等。在市场篮分析中,它被许多大型零售商充分使用……阅读更多
5K+ 次浏览
数据挖掘是从大量信息中选择、探索和建模的过程,以发现最初未知的规律或关系,从而为数据库所有者获得清晰且有益的结果。数据挖掘是一个跨学科领域,汇集了一组学科,例如数据库系统、统计学、机器学习、可视化和数据科学。它基于所使用的数据挖掘方法,可以使用其他学科的方法,包括神经网络、模糊和粗糙集理论、知识表示、归纳逻辑编程或高性能计算。它建立在要处理的数据类型上……阅读更多
501 次浏览
协同过滤是一种基于内存的推理方法,特别适用于支持个性化推荐的应用。协同过滤系统从个人偏好历史开始。距离函数决定相似性取决于偏好重叠,喜欢相同事物的人彼此靠近。此外,投票会根据距离进行加权,因此较近邻居的投票对认可的影响更大。换句话说,它是一种通过使用同行组为其相同……选择的方法来发现适合特定人当前偏好的音乐、书籍、葡萄酒或其他人的方法。阅读更多
224 次浏览
数据挖掘也被定义为数据中的知识发现,这是一种识别数百万数据(特别是结构化数据)之间的任何异常、相关性、趋势或模式的技术,以获取可用于业务决策的见解,而这些见解在传统分析中可能被忽略。数据挖掘的目标是使用复杂的数值算法查找以前被忽略或未知的事实或数据。数据挖掘类似于数据科学。它由一个人在特定情况下对特定数据集执行,并具有目标。此阶段包含几种类型的服务……阅读更多
627 次浏览
距离是MBR计算相似度的方法。对于某些真实的距离度量,从点A到点B的距离,用d(A, B)表示,具有以下四个特征:−定义明确−两点之间的距离是连续定义的非负实数,d(A, B) ≥ 0。−同一性−从一点到自身的距离始终为零,因此d(A, A) = 0。−交换性−方向没有区别,因此从A到B的距离与从B到A的距离相同:d(A, B) = d(B, A)。这……阅读更多