Scrapy - 概述



Scrapy是一个快速、开源的Python编写的网页爬取框架,它利用基于XPath的选择器从网页中提取数据。

Scrapy首次发布于2008年6月26日,采用BSD许可证,1.0里程碑版本于2015年6月发布。

为什么使用Scrapy?

  • 更容易构建和扩展大型爬取项目。

  • 它有一个内置的机制叫做选择器(Selectors),用于从网站提取数据。

  • 它异步处理请求,速度很快。

  • 它使用自动限速机制自动调整爬取速度。

  • 确保开发者易用性。

Scrapy 的特性

  • Scrapy是一个开源且免费使用的网页爬取框架。

  • Scrapy生成JSON、CSV和XML等格式的导出数据。

  • Scrapy内置支持使用XPath或CSS表达式选择和提取数据。

  • 基于爬虫的Scrapy允许自动从网页提取数据。

优势

  • Scrapy易于扩展,快速且强大。

  • 它是一个跨平台的应用程序框架(Windows、Linux、Mac OS和BSD)。

  • Scrapy的请求是异步调度和处理的。

  • Scrapy自带一个名为Scrapyd的内置服务,允许使用JSON Web服务上传项目和控制爬虫。

  • 即使网站没有提供原始数据的API,也可以抓取任何网站。

劣势

  • Scrapy仅支持Python 2.7+。

  • 不同操作系统的安装方式不同。

广告