Scrapy 教程
Scrapy - 首页

Scrapy - 概述

Scrapy是一个快速、开源的Python编写的网页爬取框架，它利用基于XPath的选择器从网页中提取数据。

Scrapy首次发布于2008年6月26日，采用BSD许可证，1.0里程碑版本于2015年6月发布。

为什么使用Scrapy？

更容易构建和扩展大型爬取项目。
它有一个内置的机制叫做选择器(Selectors)，用于从网站提取数据。
它异步处理请求，速度很快。
它使用自动限速机制自动调整爬取速度。
确保开发者易用性。

Scrapy 的特性

Scrapy是一个开源且免费使用的网页爬取框架。
Scrapy生成JSON、CSV和XML等格式的导出数据。
Scrapy内置支持使用XPath或CSS表达式选择和提取数据。
基于爬虫的Scrapy允许自动从网页提取数据。

优势

Scrapy易于扩展，快速且强大。
它是一个跨平台的应用程序框架（Windows、Linux、Mac OS和BSD）。
Scrapy的请求是异步调度和处理的。
Scrapy自带一个名为Scrapyd的内置服务，允许使用JSON Web服务上传项目和控制爬虫。
即使网站没有提供原始数据的API，也可以抓取任何网站。

劣势

Scrapy仅支持Python 2.7+。
不同操作系统的安装方式不同。

打印页面

广告