什么是聚焦网络爬虫？

数据挖掘数据库数据结构

聚焦网络爬虫是一种超文本系统，它能够调查、获取、索引和支持特定主题的网页，这些主题定义了网络的一个相对狭窄的片段。它只需要很少的硬件和网络资源投资，却能够以很快的速度实现可观的覆盖率，这仅仅是因为它需要处理的信息相对较少。

聚焦网络爬虫由一个分类器（它学习从主题分类法中嵌入的例子中识别相关性）和一个提取器（它识别互联网上的主题优势点）来执行。

聚焦网络爬虫使用垂直搜索引擎来抓取特定于目标主题的网页。每个获取的页面都被分类到预定义的目标主题中。如果预测该页面与主题相关，则提取其链接并将其添加到URL队列中。

否则，爬取过程将不会从此页面继续进行。这种聚焦网络爬虫被称为“全页”聚焦网络爬虫，因为它对全页内容进行分类。换句话说，页面上所有链接的上下文就是全页内容本身。

这种网络爬虫能够更有效地创建索引，直接帮助我们实现从万维网庞大资源库中更快、更相关地检索数据的基本要求。一些搜索引擎已经开始使用这种方法，为用户提供更丰富的体验，同时直接增加他们的点击量。

爬虫管理器是继超文本分析器之后系统中的一个重要组成部分。该组件从全球网络下载文件。URL 存储库中的 URL 会被检索并添加到爬虫管理器中的缓冲区。

URL 缓冲区是一个优先级队列。根据 URL 缓冲区的大小，爬虫管理器会动态地为爬虫创建实例，这些实例将下载文件。为了提高效率，爬虫管理器可以生成一个爬虫池。管理器还负责限制爬虫的速度并在它们之间平衡负载。这是通过检查爬虫来完成的。

爬虫是一个多线程 Java 代码，它足以从互联网下载网页并将文件保存到文档存储库中。每个爬虫都有自己的队列，该队列影响要爬取的 URL 文件。爬虫从队列中检索 URL。

不同的爬虫可能会向同一个服务器发送共享请求。如果是这样，向相同的服务器发送请求会导致服务器过载。服务器积极地完成必须来自已共享请求并等待响应的爬虫的请求。

Ginni

更新于：2022年2月16日

2K+ 次浏览

开启你的职业生涯

完成课程获得认证

广告

© . All rights reserved.