401 次浏览
CBR 代表基于案例的推理。CBR 分类器需要一个问题解决方案数据库来阐明新问题。与最近邻分类器不同的是,最近邻分类器将训练元组保存为欧几里德空间中的点,而 CBR 将元组或“案例”保存为复杂的符号表示形式,用于解决问题。CBR 的各种商业应用包括客户服务帮助台的问题解决,其中案例描述了与产品相关的诊断问题。CBR 已用于工程和法律等领域,其中案例分别为技术设计或法律裁决。医学教育是 CBR 的一个应用,其中患者病史和治疗方案用于支持诊断和考虑…… 阅读更多
315 次浏览
贝叶斯分类器是统计分类器。它们可以预测类成员概率,包括给定样本属于特定类的概率。贝叶斯分类器在处理大型数据库时也显示出较高的效率和速度。一旦定义了类,系统就应该推断控制分类的规则,因此系统应该能够找到每个类的描述。这些描述应该只参考训练集的预测属性,以便只有正例应该满足描述,而不是反例。如果规则的描述涵盖…… 阅读更多
25K+ 次浏览
属性选择度量是一种启发式方法,用于选择“最佳”地将给定类标记训练元组的数据分区 D 分隔成单个类的分裂测试。如果它可以根据分裂标准的结果将 D 分裂成更小的分区,理想情况下,每个分区都可以是纯的(即,落入给定分区中的某些元组可以属于同一类)。从概念上讲,“最佳”分裂标准是最接近这种方法的结果。属性选择度量被称为分裂规则,因为它们决定了如何划分给定节点处的元组。属性选择…… 阅读更多
1K+ 次浏览
决策树归纳是从类标记训练元组中学习决策树。决策树是一种类似于流程图的顺序树状结构,其中每个内部节点(非叶节点)表示对属性的测试,每个分支定义测试的结果,每个叶节点(或终端节点)表示一个类标签。树中最高的节点是根节点。它定义了概念“购买电脑”,即它预测 AllElectronics 的用户是否可能购买电脑。内部节点用矩形表示,叶节点用椭圆表示。有各种决策树…… 阅读更多
938 次浏览
分类是一种数据挖掘方法,它将元素分配到一组数据中,以帮助更有效地进行预测和分析。当有两个目标类时,通常使用分类,称为二元分类。当可以预测超过两个类时,尤其是在模式识别问题中,这被称为多项式分类。然而,多项式分类可用于分类响应数据,其中需要预测哪些类别中的实例具有最大概率。数据分类是一个两阶段的阶段。在第一阶段,构建分类器,定义预定数据集合…… 阅读更多
119 次浏览
规则约束可以分为以下五个要素:反单调性 - 约束的第一个要素是反单调性。考虑规则约束“sum(I.price) ≤ 100”。考虑它使用 Apriori 框架,在每次迭代 k 中分析大小为 k 的项集。如果项集中项目的成本总和不少于 100,则可以从此搜索空间中缩短此项集,因为向集合中插入更多项目只会使其成本更高,因此不会满足约束条件。反单调约束的修剪可以用于…… 阅读更多
705 次浏览
数据挖掘是通过传输存储在存储库中的大量数据来查找有用的新相关性、模式和趋势的过程,使用模式识别技术,包括统计和数学技术。它是对事实数据集的分析,以发现意想不到的关系,并以对数据库所有者而言既合乎逻辑又有所帮助的新方法总结记录。它是选择、探索和建模大量信息的过程,以查找最初未知的规律或关系,以便为数据库所有者获得清晰且有益的结果。数据挖掘类似于…… 阅读更多
21K+ 次浏览
数据挖掘过程可以从给定的信息集中发现数千条规则,其中大部分最终对用户来说是独立的或乏味的。用户最了解哪种挖掘“方向”可以导致有趣的模式,以及他们可能希望发现的模式或规则的“形式”。因此,一个好的启发式方法是让用户将这种直觉或期望定义为约束,以约束搜索空间。这种策略称为基于约束的挖掘。基于约束的算法需要约束来减少频繁项集生成步骤(关联规则生成步骤…… 阅读更多
关联规则聚类系统涉及以下步骤:分箱 - 定量属性可以具有代表其域的广泛值范围。可以考虑如果将年龄和收入作为轴绘制,那么二维网格会有多大,其中年龄的每个可能值都在一个轴上创建一个特定位置,同样,收入的每个可能值都在另一个轴上创建一个特定位置。可以将网格保持到可管理的大小,可以改为将定量属性的区域划分为区间。这些…… 阅读更多
在天真的方法中,可以挖掘频繁项集的完整集合,然后删除每个频繁项集,它是当前频繁项集的真子集,并提供与其相同的支持。此方法可以导出 2100−1 个频繁项集以获得长度为 100 的频繁项集,所有这些都在开始删除冗余项集之前。推荐的技术是在挖掘阶段精确地搜索封闭频繁项集。这需要我们在挖掘过程中识别封闭项集的方法时修剪搜索空间。有各种修剪策略,包括以下几种:项目…… 阅读更多