数据挖掘 - 挖掘万维网



万维网包含大量信息,为数据挖掘提供了丰富的来源。

Web挖掘中的挑战

基于以下观察,Web对基于资源和知识的发现提出了巨大挑战:

  • Web规模庞大 - Web的规模非常庞大,并且正在迅速增长。这似乎表明Web对于数据仓库和数据挖掘来说过于庞大。

  • 网页的复杂性 - 网页没有统一的结构。与传统的文本文档相比,它们非常复杂。Web数字图书馆中存在大量文档。这些库没有按照任何特定的排序顺序排列。

  • Web是动态信息源 - Web上的信息正在快速更新。诸如新闻、股票市场、天气、体育、购物等数据会定期更新。

  • 用户社区的多样性 - Web上的用户社区正在迅速扩大。这些用户具有不同的背景、兴趣和使用目的。有超过1亿个工作站连接到互联网,并且仍在快速增长。

  • 信息的关联性 - 认为特定的人通常只对Web的一小部分感兴趣,而Web的其余部分包含与用户无关的信息,可能会淹没所需的结果。

挖掘网页布局结构

网页的基本结构基于文档对象模型 (DOM)。DOM结构指的是树状结构,其中页面中的HTML标签对应于DOM树中的节点。我们可以使用HTML中的预定义标签来分割网页。HTML语法灵活,因此网页不遵循W3C规范。不遵循W3C规范可能会导致DOM树结构错误。

DOM结构最初是为了在浏览器中进行呈现而引入的,而不是为了描述网页的语义结构。DOM结构无法正确识别网页不同部分之间的语义关系。

基于视觉的页面分割 (VIPS)

  • VIPS的目的是根据其视觉呈现提取网页的语义结构。

  • 这种语义结构对应于树状结构。在这棵树中,每个节点对应于一个块。

  • 为每个节点分配一个值。此值称为连贯度。分配此值是为了根据视觉感知指示块中连贯的内容。

  • VIPS算法首先从HTML DOM树中提取所有合适的块。之后,它找到这些块之间的分隔符。

  • 分隔符指的是网页中水平或垂直的线条,这些线条在视觉上交叉且没有块。

  • 网页的语义是基于这些块构建的。

下图显示了VIPS算法的过程:

VIPS
广告