Scrapy - 其他设置



下表显示了 Scrapy 的其他设置:

序号 设置 & 描述
1

AJAXCRAWL_ENABLED

用于启用大型爬取。

默认值:False

2

AUTOTHROTTLE_DEBUG

启用后,可以实时查看节流参数如何调整,并在每个接收到的响应中显示统计信息。

默认值:False

3

AUTOTHROTTLE_ENABLED

用于启用 AutoThrottle 扩展。

默认值:False

4

AUTOTHROTTLE_MAX_DELAY

用于在高延迟情况下设置下载的最大延迟。

默认值:60.0

5

AUTOTHROTTLE_START_DELAY

用于设置下载的初始延迟。

默认值:5.0

6

AUTOTHROTTLE_TARGET_CONCURRENCY

定义 Scrapy 并行发送到远程站点的平均请求数。

默认值:1.0

7

CLOSESPIDER_ERRORCOUNT

定义在关闭爬虫之前应接收的错误总数。

默认值:0

8

CLOSESPIDER_ITEMCOUNT

定义在关闭爬虫之前应获取的项总数。

默认值:0

9

CLOSESPIDER_PAGECOUNT

定义在爬虫关闭之前要爬取的最大响应数。

默认值:0

10

CLOSESPIDER_TIMEOUT

定义爬虫关闭的时间量(以秒为单位)。

默认值:0

11

COMMANDS_MODULE

当您想在项目中添加自定义命令时使用。

默认值:''

12

COMPRESSION_ENABLED

指示压缩中间件是否启用。

默认值:True

13

COOKIES_DEBUG

如果设置为 true,则记录请求中发送和响应中接收的所有 Cookie。

默认值:False

14

COOKIES_ENABLED

指示 Cookie 中间件是否启用并发送到 Web 服务器。

默认值:True

15

FILES_EXPIRES

定义文件过期的延迟。

默认值:90 天

16

FILES_RESULT_FIELD

当您想为处理后的文件使用其他字段名称时设置。

17

FILES_STORE

通过将其设置为有效值来存储下载的文件。

18

FILES_STORE_S3_ACL

用于修改存储在 Amazon S3 存储桶中的文件的 ACL 策略。

默认值:private

19

FILES_URLS_FIELD

当您想为文件 URL 使用其他字段名称时设置。

20

HTTPCACHE_ALWAYS_STORE

如果启用此设置,爬虫将彻底缓存页面。

默认值:False

21

HTTPCACHE_DBM_MODULE

在 DBM 存储后端中使用的数据库模块。

默认值:'anydbm'

22

HTTPCACHE_DIR

用于启用和存储 HTTP 缓存的目录。

默认值:'httpcache'

23

HTTPCACHE_ENABLED

指示 HTTP 缓存是否启用。

默认值:False

24

HTTPCACHE_EXPIRATION_SECS

用于设置 HTTP 缓存的过期时间。

默认值:0

25

HTTPCACHE_GZIP

如果此设置设置为 true,则所有缓存数据都将使用 gzip 压缩。

默认值:False

26

HTTPCACHE_IGNORE_HTTP_CODES

它指出不应将 HTTP 响应与 HTTP 代码一起缓存。

默认值:[]

27

HTTPCACHE_IGNORE_MISSING

如果启用此设置,则如果在缓存中找不到请求,则将忽略该请求。

默认值:False

28

HTTPCACHE_IGNORE_RESPONSE_CACHE_CONTROLS

包含要忽略的缓存控制的列表。

默认值:[]

29

HTTPCACHE_IGNORE_SCHEME

它指出不应将 HTTP 响应与 URI 方案一起缓存。

默认值:['file']

30

HTTPCACHE_POLICY

定义实现缓存策略的类。

默认值:'scrapy.extensions.httpcache.DummyPolicy'

31

HTTPCACHE_STORAGE

实现缓存存储的类。

默认值:'scrapy.extensions.httpcache.FilesystemCacheStorage'

32

HTTPERROR_ALLOWED_CODES

一个列表,其中所有响应都通过非 200 状态代码传递。

默认值:[]

33

HTTPERROR_ALLOW_ALL

启用此设置后,所有响应都将通过,无论其状态代码如何。

默认值:False

34

HTTPPROXY_AUTH_ENCODING

用于在 HttpProxyMiddleware 上对代理进行身份验证。

默认值:"latin-1"

35

IMAGES_EXPIRES

定义图像过期的延迟。

默认值:90 天

36

IMAGES_MIN_HEIGHT

用于使用最小尺寸丢弃太小的图像。

37

IMAGES_MIN_WIDTH

用于使用最小尺寸丢弃太小的图像。

38

IMAGES_RESULT_FIELD

当您想为处理后的图像使用其他字段名称时设置。

39

IMAGES_STORE

通过将其设置为有效值来存储下载的图像。

40

IMAGES_STORE_S3_ACL

用于修改存储在 Amazon S3 存储桶中的图像的 ACL 策略。

默认值:private

41

IMAGES_THUMBS

设置为创建下载图像的缩略图。

42

IMAGES_URLS_FIELD

当您想为图像 URL 使用其他字段名称时设置。

43

MAIL_FROM

发件人使用此设置发送电子邮件。

默认值:'scrapy@localhost'

44

MAIL_HOST

用于发送电子邮件的 SMTP 主机。

默认值:'localhost'

45

MAIL_PASS

用于对 SMTP 进行身份验证的密码。

默认值:None

46

MAIL_PORT

用于发送电子邮件的 SMTP 端口。

默认值:25

47

MAIL_SSL

用于使用 SSL 加密连接实现连接。

默认值:False

48

MAIL_TLS

启用后,它强制使用 STARTTLS 建立连接。

默认值:False

49

MAIL_USER

定义用于对 SMTP 进行身份验证的用户。

默认值:None

50

METAREFRESH_ENABLED

指示元刷新中间件是否启用。

默认值:True

51

METAREFRESH_MAXDELAY

元刷新重定向的最大延迟。

默认值:100

52

REDIRECT_ENABLED

指示重定向中间件是否启用。

默认值:True

53

REDIRECT_MAX_TIMES

定义请求重定向的最大次数。

默认值:20

54

REFERER_ENABLED

指示推荐来源中间件是否启用。

默认值:True

55

RETRY_ENABLED

指示重试中间件是否启用。

默认值:True

56

RETRY_HTTP_CODES

定义要重试的 HTTP 代码。

默认值:[500, 502, 503, 504, 408]

57

RETRY_TIMES

定义重试的最大次数。

默认值:2

58

TELNETCONSOLE_HOST

定义 Telnet 控制台必须监听的接口。

默认值:'127.0.0.1'

59

TELNETCONSOLE_PORT

定义用于 Telnet 控制台的端口。

默认值:[6023, 6073]

scrapy_settings.htm
广告

© . All rights reserved.