如何利用中心页面查找权威页面?
中心页面是一组网页,它支持指向权威页面的链接集。中心页面可能并不突出,或者可能存在指向它们的某些链接;但是,它们支持指向某个一般主题上的一组突出网站的链接。
此类页面可以是单个主页上推荐连接的列表,包括课程主页上推荐的参考网站,或商业网站上专业整理的资源文档。中心页面在隐式地赋予目标主题权威性方面发挥着重要作用。
一般来说,一个好的中心页面是指向几个好的权威页面的页面;一个好的权威页面是指向它的几个好的中心页面所指示的页面。中心页面和权威页面之间这种相互增强的关系支持挖掘权威网页并自动发现高质量的网页架构和资源。
一种利用中心页面的算法,称为HITS(超链接诱导主题搜索),其产生过程如下。首先,HITS需要查询词来从基于索引的搜索引擎中收集一组起始页面,例如200个页面。这些页面构成核心集。
由于许多页面可能与搜索主题相关,因此其中一些页面应该包含指向大多数突出权威页面的链接。因此,可以通过包含核心集页面链接到的某些页面以及链接到核心集中的页面的某些页面来将核心集扩展到基础集,直到达到指定的截止大小,包括1000到5000个页面(包含在基础集中)。
其次,启动权重传播过程。这个迭代阶段决定了中心页面和权威页面权重的统计估计。两个具有相同Web域(即在它们的URL中发送相同的第一个级别)的页面之间的链接充当导航服务,因此不会赋予权威性。此类链接未经权重传播分析授权。
谷歌的PageRank算法依赖于相同的原理。通过探索Web链接和文本上下文数据,已经证明,与AltaVista等术语索引引擎创建的那些以及Yahoo!等人工本体论生成的那些相比,此类系统可以获得更高质量的搜索结果。
链接分析算法依赖于以下两个假设。首先,链接发送人类认可。如果从页面A到页面B存在链接,并且这两个页面是由几个人创作的,则该链接表示页面A的作者发现页面B很有价值。因此,页面的重要性可以提高到它链接到的那些页面。其次,特定页面共同引用的页面很可能与同一主题相关。