链接挖掘的挑战是什么?
链接挖掘面临着一些挑战,如下所示:
逻辑依赖与统计依赖——图链接结构中存在两种类型的依赖关系:(表示对象之间逻辑关系的)逻辑依赖和(表示统计关系的)概率依赖,例如对象属性之间的相关性,这些对象通常在逻辑上是相关的。
对这些依赖关系进行一致的处理也是多关系数据挖掘的一个挑战,其中要挖掘的数据存在于多个表中。它应该搜索对象之间若干可能的逻辑关系,此外还要搜索属性之间概率依赖的标准搜索。这需要一个巨大的搜索空间,这使得找到一个合理的数学模型更加复杂。这里可以应用归纳逻辑编程中发展的方法,这些方法侧重于对逻辑关系的搜索。
特征构建——在基于链接的分类中,它可以考虑对象的属性以及与其连接的对象的属性。此外,链接也可以具有属性。特征构建的目标是构建一个定义这些属性的单一特征。这可以包含特征选择和特征聚合。在特征选择中,只包含最具区分性的特征。
实例与类别——这指的是模型是否明确地指代个体或个体的类别(一般类别)。前一种模型的优点是它可以用来将特定个体与高概率联系起来。后一种模型的优点是它可以用来推广到新的情况,包括多个个体。
有效利用标记数据和未标记数据——学习中的一个近期策略是结合标记数据和未标记数据的混合。未标记数据可以帮助推断对象属性分布。未标记(测试)数据之间的链接允许我们使用链接对象的属性。标记(训练)数据和未标记(测试)数据之间的链接会产生依赖关系,这有助于创建更准确的推断。
链接预测——链接预测中的一个挑战是,对象之间特定链接的先验概率通常极低。已经提出了各种链接预测方法,这些方法基于分析网络中节点邻近性的几种度量。也提出了概率模型。对于大型数据集,在更高层次上对链接建模可能更有效。
封闭世界假设与开放世界假设——大多数传统方法假设我们知道领域中所有潜在的实体。这种“封闭世界”假设在现实世界应用中是不现实的。这方面的工作包括引入一种语言来定义关系结构上的概率分布,其中包含多个对象集。