- Scrapy 教程
- Scrapy - 首页
- Scrapy 基本概念
- Scrapy - 概述
- Scrapy - 环境配置
- Scrapy - 命令行工具
- Scrapy - 爬虫 (Spiders)
- Scrapy - 选择器 (Selectors)
- Scrapy - 项目 (Items)
- Scrapy - 项目加载器 (Item Loaders)
- Scrapy - Shell
- Scrapy - 项目管道 (Item Pipeline)
- Scrapy - 数据导出 (Feed exports)
- Scrapy - 请求 & 响应
- Scrapy - 链接提取器 (Link Extractors)
- Scrapy - 设置
- Scrapy - 异常处理
- Scrapy 实战项目
- Scrapy - 创建项目
- Scrapy - 定义项目
- Scrapy - 第一个爬虫
- Scrapy - 爬取数据
- Scrapy - 提取项目数据
- Scrapy - 使用项目数据
- Scrapy - 跟踪链接
- Scrapy - 爬取的数据
- Scrapy 有用资源
- Scrapy - 快速指南
- Scrapy - 有用资源
- Scrapy - 讨论
Scrapy - 概述
Scrapy是一个快速、开源的Python编写的网页爬取框架,它利用基于XPath的选择器从网页中提取数据。
Scrapy首次发布于2008年6月26日,采用BSD许可证,1.0里程碑版本于2015年6月发布。
为什么使用Scrapy?
更容易构建和扩展大型爬取项目。
它有一个内置的机制叫做选择器(Selectors),用于从网站提取数据。
它异步处理请求,速度很快。
它使用自动限速机制自动调整爬取速度。
确保开发者易用性。
Scrapy 的特性
Scrapy是一个开源且免费使用的网页爬取框架。
Scrapy生成JSON、CSV和XML等格式的导出数据。
Scrapy内置支持使用XPath或CSS表达式选择和提取数据。
基于爬虫的Scrapy允许自动从网页提取数据。
优势
Scrapy易于扩展,快速且强大。
它是一个跨平台的应用程序框架(Windows、Linux、Mac OS和BSD)。
Scrapy的请求是异步调度和处理的。
Scrapy自带一个名为Scrapyd的内置服务,允许使用JSON Web服务上传项目和控制爬虫。
即使网站没有提供原始数据的API,也可以抓取任何网站。
劣势
Scrapy仅支持Python 2.7+。
不同操作系统的安装方式不同。
广告