什么是网页排名算法在网页挖掘中?
PageRank 是一种客观且机械地对网页进行评分的方法,关注人类兴趣。网页搜索引擎必须与缺乏经验的客户端和操纵传统排名服务的页面进行组织。一些计算网页可复制性质的评估方法对操纵免疫力不足。
任务是利用 Web 的超链接结构来生成每个网页的全局重要性排名。此排名称为 PageRank。
Web 的机制依赖于一个具有大约 1.5 亿个节点(网页)和 17 亿条边(超链接)的图。如果网页 A 和 B 链接到网页 C,则 A 和 B 被称为 C 的反向链接。通常,链接较多的页面更重要。因此,它们拥有更多反向链接,而重要的反向链接数量较少。
例如,具有来自雅虎的单个反向链接的网页必须比具有来自未知或私人网站的多个反向链接的网页排名更高。如果其反向链接的总排名过大,则网页的排名很高。
以下是 PageRank 的简化版本:令 u、v 为网页。因此,令 Bu 为指向 u 的页面组。此外,令 Nv 为来自 v 的多个链接。令 c < 1 为归一化因子。它可以描述一个简单的排名 R,它是 PageRank 的简化解释 -
$$\mathrm{R(u)\:=\:c\displaystyle\sum\limits_{u\in{Bu}}\frac{R(v)}{N_v}}$$
页面的排名在其前向连接之间平均分配,以提供给它们标记的页面的排名。该方程是递归的,但此简化函数存在问题。
如果两个网页相互指向但没有其他页面,而其他一些网页指向其中一个,则在迭代期间将生成一个循环。此循环将汇集排名,但永远不会共享任何排名。此图中由循环形成的、没有出边的陷阱称为排名汇。
Page Rank 算法首先将数据库中的每个 URL 转换为一个数字。下一阶段是使用整数 ID 在数据库中保存每个超链接以识别网页。在按父 ID 对链接结构进行排序并删除悬空链接后,启动迭代。
必须选择最佳的初始分配以加快收敛速度。当前时间步长的权重保存在内存中,前一个权重以线性时间访问磁盘。在权重收敛后,将悬空连接插入回并重新计算排名。计算执行良好,但可以通过放宽收敛标准和使用更有效的优化方法来使其更快。