- Scrapy 教程
- Scrapy - 首页
- Scrapy 基本概念
- Scrapy - 概述
- Scrapy - 环境
- Scrapy - 命令行工具
- Scrapy - 爬虫 (Spider)
- Scrapy - 选择器
- Scrapy - 项 (Item)
- Scrapy - 项加载器 (Item Loader)
- Scrapy - Shell
- Scrapy - 项管道 (Item Pipeline)
- Scrapy - 数据导出 (Feed)
- Scrapy - 请求 & 响应
- Scrapy - 链接提取器
- Scrapy - 设置
- Scrapy - 异常
- Scrapy 实战项目
- Scrapy - 创建项目
- Scrapy - 定义项
- Scrapy - 第一个爬虫
- Scrapy - 爬取
- Scrapy - 提取项
- Scrapy - 使用项
- Scrapy - 跟踪链接
- Scrapy - 爬取数据
- Scrapy 有用资源
- Scrapy - 快速指南
- Scrapy - 有用资源
- Scrapy - 讨论
Scrapy - 其他设置
下表显示了 Scrapy 的其他设置:
| 序号 | 设置 & 描述 |
|---|---|
| 1 | AJAXCRAWL_ENABLED 用于启用大型爬取。 默认值:False |
| 2 | AUTOTHROTTLE_DEBUG 启用后,可以实时查看节流参数如何调整,并在每个接收到的响应中显示统计信息。 默认值:False |
| 3 | AUTOTHROTTLE_ENABLED 用于启用 AutoThrottle 扩展。 默认值:False |
| 4 | AUTOTHROTTLE_MAX_DELAY 用于在高延迟情况下设置下载的最大延迟。 默认值:60.0 |
| 5 | AUTOTHROTTLE_START_DELAY 用于设置下载的初始延迟。 默认值:5.0 |
| 6 | AUTOTHROTTLE_TARGET_CONCURRENCY 定义 Scrapy 并行发送到远程站点的平均请求数。 默认值:1.0 |
| 7 | CLOSESPIDER_ERRORCOUNT 定义在关闭爬虫之前应接收的错误总数。 默认值:0 |
| 8 | CLOSESPIDER_ITEMCOUNT 定义在关闭爬虫之前应获取的项总数。 默认值:0 |
| 9 | CLOSESPIDER_PAGECOUNT 定义在爬虫关闭之前要爬取的最大响应数。 默认值:0 |
| 10 | CLOSESPIDER_TIMEOUT 定义爬虫关闭的时间量(以秒为单位)。 默认值:0 |
| 11 | COMMANDS_MODULE 当您想在项目中添加自定义命令时使用。 默认值:'' |
| 12 | COMPRESSION_ENABLED 指示压缩中间件是否启用。 默认值:True |
| 13 | COOKIES_DEBUG 如果设置为 true,则记录请求中发送和响应中接收的所有 Cookie。 默认值:False |
| 14 | COOKIES_ENABLED 指示 Cookie 中间件是否启用并发送到 Web 服务器。 默认值:True |
| 15 | FILES_EXPIRES 定义文件过期的延迟。 默认值:90 天 |
| 16 | FILES_RESULT_FIELD 当您想为处理后的文件使用其他字段名称时设置。 |
| 17 | FILES_STORE 通过将其设置为有效值来存储下载的文件。 |
| 18 | FILES_STORE_S3_ACL 用于修改存储在 Amazon S3 存储桶中的文件的 ACL 策略。 默认值:private |
| 19 | FILES_URLS_FIELD 当您想为文件 URL 使用其他字段名称时设置。 |
| 20 | HTTPCACHE_ALWAYS_STORE 如果启用此设置,爬虫将彻底缓存页面。 默认值:False |
| 21 | HTTPCACHE_DBM_MODULE 在 DBM 存储后端中使用的数据库模块。 默认值:'anydbm' |
| 22 | HTTPCACHE_DIR 用于启用和存储 HTTP 缓存的目录。 默认值:'httpcache' |
| 23 | HTTPCACHE_ENABLED 指示 HTTP 缓存是否启用。 默认值:False |
| 24 | HTTPCACHE_EXPIRATION_SECS 用于设置 HTTP 缓存的过期时间。 默认值:0 |
| 25 | HTTPCACHE_GZIP 如果此设置设置为 true,则所有缓存数据都将使用 gzip 压缩。 默认值:False |
| 26 | HTTPCACHE_IGNORE_HTTP_CODES 它指出不应将 HTTP 响应与 HTTP 代码一起缓存。 默认值:[] |
| 27 | HTTPCACHE_IGNORE_MISSING 如果启用此设置,则如果在缓存中找不到请求,则将忽略该请求。 默认值:False |
| 28 | HTTPCACHE_IGNORE_RESPONSE_CACHE_CONTROLS 包含要忽略的缓存控制的列表。 默认值:[] |
| 29 | HTTPCACHE_IGNORE_SCHEME 它指出不应将 HTTP 响应与 URI 方案一起缓存。 默认值:['file'] |
| 30 | HTTPCACHE_POLICY 定义实现缓存策略的类。 默认值:'scrapy.extensions.httpcache.DummyPolicy' |
| 31 | HTTPCACHE_STORAGE 实现缓存存储的类。 默认值:'scrapy.extensions.httpcache.FilesystemCacheStorage' |
| 32 | HTTPERROR_ALLOWED_CODES 一个列表,其中所有响应都通过非 200 状态代码传递。 默认值:[] |
| 33 | HTTPERROR_ALLOW_ALL 启用此设置后,所有响应都将通过,无论其状态代码如何。 默认值:False |
| 34 | HTTPPROXY_AUTH_ENCODING 用于在 HttpProxyMiddleware 上对代理进行身份验证。 默认值:"latin-1" |
| 35 | IMAGES_EXPIRES 定义图像过期的延迟。 默认值:90 天 |
| 36 | IMAGES_MIN_HEIGHT 用于使用最小尺寸丢弃太小的图像。 |
| 37 | IMAGES_MIN_WIDTH 用于使用最小尺寸丢弃太小的图像。 |
| 38 | IMAGES_RESULT_FIELD 当您想为处理后的图像使用其他字段名称时设置。 |
| 39 | IMAGES_STORE 通过将其设置为有效值来存储下载的图像。 |
| 40 | IMAGES_STORE_S3_ACL 用于修改存储在 Amazon S3 存储桶中的图像的 ACL 策略。 默认值:private |
| 41 | IMAGES_THUMBS 设置为创建下载图像的缩略图。 |
| 42 | IMAGES_URLS_FIELD 当您想为图像 URL 使用其他字段名称时设置。 |
| 43 | MAIL_FROM 发件人使用此设置发送电子邮件。 默认值:'scrapy@localhost' |
| 44 | MAIL_HOST 用于发送电子邮件的 SMTP 主机。 默认值:'localhost' |
| 45 | MAIL_PASS 用于对 SMTP 进行身份验证的密码。 默认值:None |
| 46 | MAIL_PORT 用于发送电子邮件的 SMTP 端口。 默认值:25 |
| 47 | MAIL_SSL 用于使用 SSL 加密连接实现连接。 默认值:False |
| 48 | MAIL_TLS 启用后,它强制使用 STARTTLS 建立连接。 默认值:False |
| 49 | MAIL_USER 定义用于对 SMTP 进行身份验证的用户。 默认值:None |
| 50 | METAREFRESH_ENABLED 指示元刷新中间件是否启用。 默认值:True |
| 51 | METAREFRESH_MAXDELAY 元刷新重定向的最大延迟。 默认值:100 |
| 52 | REDIRECT_ENABLED 指示重定向中间件是否启用。 默认值:True |
| 53 | REDIRECT_MAX_TIMES 定义请求重定向的最大次数。 默认值:20 |
| 54 | REFERER_ENABLED 指示推荐来源中间件是否启用。 默认值:True |
| 55 | RETRY_ENABLED 指示重试中间件是否启用。 默认值:True |
| 56 | RETRY_HTTP_CODES 定义要重试的 HTTP 代码。 默认值:[500, 502, 503, 504, 408] |
| 57 | RETRY_TIMES 定义重试的最大次数。 默认值:2 |
| 58 | TELNETCONSOLE_HOST 定义 Telnet 控制台必须监听的接口。 默认值:'127.0.0.1' |
| 59 | TELNETCONSOLE_PORT 定义用于 Telnet 控制台的端口。 默认值:[6023, 6073] |