聚焦网络爬虫的组成部分是什么?
聚焦网络爬虫包含以下几个组成部分:
种子检测器 − 种子检测器的作用是通过获取前n个URL来确定特定关键词的种子URL。种子页面根据PageRank算法或hits算法或类似算法进行识别和优先级分配。
爬虫管理器 − 爬虫管理器是系统中超文本分析器之后的一个重要组成部分。该组件从全球网络下载文件。URL存储库中的URL被检索并创建到爬虫管理器中的缓冲区。
URL缓冲区是一个优先级队列。根据URL缓冲区的大小,爬虫管理器会动态创建爬虫实例来下载文件。
为了提高效率,爬虫管理器可以生成一个爬虫池。管理器还负责限制爬虫的速度并在它们之间平衡负载。这是通过检查爬虫来完成的。
爬虫 − 爬虫是一个多线程Java代码,足以从网络下载网页并将文件保存到文档存储库。每个爬虫都有自己的队列,该队列影响要爬取的URL列表。爬虫从队列中检索URL。
不同的爬虫可能会向同一服务器发送共享请求。因此,向同一服务器发送请求会导致服务器过载。服务器积极地完成必须来自共享请求的爬虫的请求并等待响应。
服务器是同步创建的。如果之前没有共享对URL的请求,则该请求将转发到HTTP结构。这确保了爬虫不会使某些服务器过载。
链接提取器 − 链接提取器从文档存储库中存在的文件中提取链接。该组件测试URL是否已在检索到的URL中。如果没有发现,则提取超链接之前和之后周围的文本、链接所在的标题或子标题。
超文本分析器 − 超文本分析器从链接提取器获取关键词,并根据定义分类层次结构的搜索关键词发现方法的相关性。
HTTP协议模块 − HTTP协议模块共享对已从队列中确认其URL的文件的请求。在收到文档后,将下载的文档的URL与时间戳一起存储在已获取的URL中,并将文档存储在文档存储库中。
广告