链接挖掘的挑战是什么？

数据挖掘数据库数据结构

链接挖掘面临着一些挑战，如下所示：

逻辑依赖与统计依赖——图链接结构中存在两种类型的依赖关系：（表示对象之间逻辑关系的）逻辑依赖和（表示统计关系的）概率依赖，例如对象属性之间的相关性，这些对象通常在逻辑上是相关的。
对这些依赖关系进行一致的处理也是多关系数据挖掘的一个挑战，其中要挖掘的数据存在于多个表中。它应该搜索对象之间若干可能的逻辑关系，此外还要搜索属性之间概率依赖的标准搜索。这需要一个巨大的搜索空间，这使得找到一个合理的数学模型更加复杂。这里可以应用归纳逻辑编程中发展的方法，这些方法侧重于对逻辑关系的搜索。
特征构建——在基于链接的分类中，它可以考虑对象的属性以及与其连接的对象的属性。此外，链接也可以具有属性。特征构建的目标是构建一个定义这些属性的单一特征。这可以包含特征选择和特征聚合。在特征选择中，只包含最具区分性的特征。
实例与类别——这指的是模型是否明确地指代个体或个体的类别（一般类别）。前一种模型的优点是它可以用来将特定个体与高概率联系起来。后一种模型的优点是它可以用来推广到新的情况，包括多个个体。
有效利用标记数据和未标记数据——学习中的一个近期策略是结合标记数据和未标记数据的混合。未标记数据可以帮助推断对象属性分布。未标记（测试）数据之间的链接允许我们使用链接对象的属性。标记（训练）数据和未标记（测试）数据之间的链接会产生依赖关系，这有助于创建更准确的推断。
链接预测——链接预测中的一个挑战是，对象之间特定链接的先验概率通常极低。已经提出了各种链接预测方法，这些方法基于分析网络中节点邻近性的几种度量。也提出了概率模型。对于大型数据集，在更高层次上对链接建模可能更有效。
封闭世界假设与开放世界假设——大多数传统方法假设我们知道领域中所有潜在的实体。这种“封闭世界”假设在现实世界应用中是不现实的。这方面的工作包括引入一种语言来定义关系结构上的概率分布，其中包含多个对象集。

Ginni

更新于：2021年11月25日

浏览量：532

开启你的职业生涯

通过完成课程获得认证

广告

© . All rights reserved.