什么是聚焦网络爬虫?
聚焦网络爬虫是一种超文本系统,它能够调查、获取、索引和支持特定主题的网页,这些主题定义了网络的一个相对狭窄的片段。它只需要很少的硬件和网络资源投资,却能够以很快的速度实现可观的覆盖率,这仅仅是因为它需要处理的信息相对较少。
聚焦网络爬虫由一个分类器(它学习从主题分类法中嵌入的例子中识别相关性)和一个提取器(它识别互联网上的主题优势点)来执行。
聚焦网络爬虫使用垂直搜索引擎来抓取特定于目标主题的网页。每个获取的页面都被分类到预定义的目标主题中。如果预测该页面与主题相关,则提取其链接并将其添加到URL队列中。
否则,爬取过程将不会从此页面继续进行。这种聚焦网络爬虫被称为“全页”聚焦网络爬虫,因为它对全页内容进行分类。换句话说,页面上所有链接的上下文就是全页内容本身。
这种网络爬虫能够更有效地创建索引,直接帮助我们实现从万维网庞大资源库中更快、更相关地检索数据的基本要求。一些搜索引擎已经开始使用这种方法,为用户提供更丰富的体验,同时直接增加他们的点击量。
爬虫管理器是继超文本分析器之后系统中的一个重要组成部分。该组件从全球网络下载文件。URL 存储库中的 URL 会被检索并添加到爬虫管理器中的缓冲区。
URL 缓冲区是一个优先级队列。根据 URL 缓冲区的大小,爬虫管理器会动态地为爬虫创建实例,这些实例将下载文件。为了提高效率,爬虫管理器可以生成一个爬虫池。管理器还负责限制爬虫的速度并在它们之间平衡负载。这是通过检查爬虫来完成的。
爬虫是一个多线程 Java 代码,它足以从互联网下载网页并将文件保存到文档存储库中。每个爬虫都有自己的队列,该队列影响要爬取的 URL 文件。爬虫从队列中检索 URL。
不同的爬虫可能会向同一个服务器发送共享请求。如果是这样,向相同的服务器发送请求会导致服务器过载。服务器积极地完成必须来自已共享请求并等待响应的爬虫的请求。