链接挖掘的任务是什么?
链接挖掘有几个任务,如下所示:
基于链接的对象分类 - 在传统的分类方法中,对象根据定义它们的属性进行分类。基于链接的分类预测对象的类别不仅取决于其属性,还取决于其链接以及链接对象的属性。
网页分类是基于链接分类的一个很好的例子。它根据单词出现(出现在页面上的单词)和锚文本(超链接单词,即单击链接时可以单击的单词)来预测网页的分类,这两者都作为属性。此外,分类取决于页面之间的链接以及页面和链接的不同属性。
对象类型预测 - 这根据对象的属性及其链接以及与其连接的对象的属性来预测对象的类型。在书目领域,可能需要将出版物的场所类型预测为会议、期刊或研讨会。在连接领域,同样的任务是预测连接联系是通过电子邮件、电话或邮件进行的。
链接类型预测 - 这根据所包含对象的属性预测链接的类型或目标。例如,给定流行病学数据,它可以尝试预测两个人是否相互了解是家庭成员、同事还是熟人。
预测链接是否存在 - 与链接类型预测不同,在链接类型预测中,它可以理解两个对象之间存在连接并且需要预测其类型,而是它可能想要预测两个对象之间是否存在链接。示例包括预测两个网页之间是否存在链接以及一篇论文是否会引用另一篇论文。
链接基数估计 - 链接基数估计有两种形式。首先,它可以预测指向对象的链接数量。例如,这对于根据指向它的链接数(入链)预测网页的权威性很有用。类似地,多个出链可用于识别充当集线器的网页,其中集线器是一个或一组指向同一案例的多个权威页面的网页。
对象协调 - 在对象协调中,该函数是根据对象的属性和链接来预测两个对象是否实际上是相同的。此函数在信息提取、重复删除、对象统一和引用连接中很常见,也称为记录链接或身份不确定性。
广告