Scrapy - 网络搜集的数据

描述

存储网络搜集数据的最佳方式是使用访问导出，它确保数据使用多种序列化格式正确地存储。JSON、JSON 序列、CSV、XML 是序列化格式中现成支持的格式。可以使用以下命令来存储数据 -

scrapy crawl dmoz -o data.json

此命令会创建一个 JSON 文件 **data.json**，其中包含网络搜集的 JSON 数据。此技术适用于少量数据。如果需要处理大量数据，可以使用项目管道。类似 data.json 文件，项目创建后将在 **tutorial/pipelines.py** 中设置一个保留文件。

打印页面