- Scrapy 教程
- Scrapy - 首页
- Scrapy 基本概念
- Scrapy - 概述
- Scrapy - 环境
- Scrapy - 命令行工具
- Scrapy - 爬虫 (Spider)
- Scrapy - 选择器
- Scrapy - 项目 (Item)
- Scrapy - 项目加载器 (Item Loader)
- Scrapy - Shell
- Scrapy - 项目管道 (Item Pipeline)
- Scrapy - 数据导出 (Feed)
- Scrapy - 请求 & 响应
- Scrapy - 链接提取器
- Scrapy - 设置
- Scrapy - 异常
- Scrapy 实战项目
- Scrapy - 创建项目
- Scrapy - 定义项目
- Scrapy - 第一个爬虫
- Scrapy - 爬取
- Scrapy - 提取项目
- Scrapy - 使用项目
- Scrapy - 跟踪链接
- Scrapy - 抓取数据
- Scrapy 有用资源
- Scrapy - 快速指南
- Scrapy - 有用资源
- Scrapy - 讨论
Scrapy - Telnet 控制台
描述
Telnet 控制台是一个在 Scrapy 进程中运行的 Python shell,用于检查和控制正在运行的 Scrapy 进程。
访问 Telnet 控制台
可以使用以下命令访问 telnet 控制台:
telnet localhost 6023
基本上,telnet 控制台在 TCP 端口上列出,该端口在 **TELNETCONSOLE_PORT** 设置中描述。
变量
下表中给出的一些默认变量用作快捷方式:
序号 | 快捷方式 & 描述 |
---|---|
1 | crawler 指的是 Scrapy 爬虫 (scrapy.crawler.Crawler) 对象。 |
2 | engine 指的是 Crawler.engine 属性。 |
3 | spider 指的是当前活动的爬虫。 |
4 | slot 指的是引擎槽。 |
5 | extensions 指的是扩展管理器 (Crawler.extensions) 属性。 |
6 | stats 指的是统计信息收集器 (Crawler.stats) 属性。 |
7 | setting 指的是 Scrapy 设置对象 (Crawler.settings) 属性。 |
8 | est 指的是打印引擎状态报告。 |
9 | prefs 指的是用于调试的内存。 |
10 | p 指的是 pprint.pprint 函数的快捷方式。 |
11 | hpy 指的是内存调试。 |
示例
以下是一些使用 Telnet 控制台的示例。
暂停、恢复和停止 Scrapy 引擎
要暂停 Scrapy 引擎,请使用以下命令:
telnet localhost 6023 >>> engine.pause() >>>
要恢复 Scrapy 引擎,请使用以下命令:
telnet localhost 6023 >>> engine.unpause() >>>
要停止 Scrapy 引擎,请使用以下命令:
telnet localhost 6023 >>> engine.stop() Connection closed by foreign host.
查看引擎状态
Telnet 控制台使用 **est()** 方法检查 Scrapy 引擎的状态,如下面的代码所示:
telnet localhost 6023 >>> est() Execution engine status time()-engine.start_time : 8.62972998619 engine.has_capacity() : False len(engine.downloader.active) : 16 engine.scraper.is_idle() : False engine.spider.name : followall engine.spider_is_idle(engine.spider) : False engine.slot.closing : False len(engine.slot.inprogress) : 16 len(engine.slot.scheduler.dqs or []) : 0 len(engine.slot.scheduler.mqs) : 92 len(engine.scraper.slot.queue) : 0 len(engine.scraper.slot.active) : 0 engine.scraper.slot.active_size : 0 engine.scraper.slot.itemproc_size : 0 engine.scraper.slot.needs_backout() : False
Telnet 控制台信号
您可以使用 telnet 控制台信号在 telnet 本地命名空间中添加、更新或删除变量。要执行此操作,您需要在处理程序中添加 telnet_vars 字典。
scrapy.extensions.telnet.update_telnet_vars(telnet_vars)
参数:
telnet_vars (dict)
其中,dict 是包含 telnet 变量的字典。
Telnet 设置
下表显示了控制 Telnet 控制台行为的设置:
序号 | 设置 & 描述 | 默认值 |
---|---|---|
1 | TELNETCONSOLE_PORT 指的是 telnet 控制台的端口范围。如果设置为 None,则端口将被动态分配。 |
[6023, 6073] |
2 | TELNETCONSOLE_HOST 指的是 telnet 控制台应监听的接口。 |
'127.0.0.1' |