- spaCy 教程
- spaCy - 首页
- spaCy - 简介
- spaCy - 快速入门
- spaCy - 模型和语言
- spaCy - 架构
- spaCy - 命令行助手
- spaCy - 顶级函数
- spaCy - 可视化函数
- spaCy - 实用函数
- spaCy - 兼容性函数
- spaCy - 容器
- Doc 类上下文管理器和属性
- spaCy - 容器 Token 类
- spaCy - Token 属性
- spaCy - 容器 Span 类
- spaCy - Span 类属性
- spaCy - 容器 Lexeme 类
- 训练神经网络模型
- 更新神经网络模型
- spaCy 有用资源
- spaCy - 快速指南
- spaCy - 有用资源
- spaCy - 讨论
spaCy - 转换命令
顾名思义,此命令会将文件转换为 spaCy 的 JavaScript 对象表示法(JSON 格式),尤其适用于与 train 命令和其他实验管理功能一起使用。
转换命令如下:
python -m spacy convert [input_file] [output_dir] [--file-type] [--converter][--n-sents] [--morphology] [--lang]
参数
下表解释了其参数:
| 参数 | 类型 | 描述 |
|---|---|---|
| input_file | 位置参数 | 它代表输入文件。 |
| output_dir | 位置参数 | 此参数代表转换文件的输出目录。默认为“-”,表示数据将写入标准输出。 |
| --file-type, -t | 选项 | 它是要创建的文件类型。 |
| --converter, -c | 选项 | 它代表要使用的转换器的名称。 |
| --n-sents, -n | 选项 | 它代表每个文档的句子数。 |
| --seg-sents, -s | 标志 | 用于分句(对于 -c ner)。 |
| --model, -b | 选项 | 它代表基于解析器的分句模型(对于 -s)。 |
| --morphology, -m | 选项 | 此参数启用将形态附加到标签。 |
| --lang, -l | 选项 | 它是语言代码,如果需要分词器则使用。 |
| --help, -h | 标志 | 此参数将显示帮助信息和其他可用参数。 |
以下是可以使用此命令生成的输出文件类型:
json - 它是常规 JSON,也是默认输出文件类型。
jsonl - 它是换行符分隔的 JSON。
msg - 它是二进制 MessagePack 格式。
转换器选项
下表显示了转换器选项:
| 序号 | ID 和描述 |
|---|---|
| 1 | 自动 它将根据文件扩展名和文件内容自动选择转换器。 |
| 2 | conll, conllu, conllubio 这些是通用依赖项 .conllu 或 .conll 格式。 |
| 3 | Ner 它具有 IOB/IOB2 标签的 NER。其中,每行一个标记,列用空格分隔。第一列是标记,最后一列是 IOB 标签。句子用空行分隔,文档用“-DOCSTART- -X- O O”行分隔。支持 CoNLL 2003 NER 格式。 |
| 4 | Iob 它具有 IOB/IOB2 标签的 NER。其中,每行一个句子,标记用空格分隔,注释用 | 分隔,例如word|B-ENT 或 word|POS|B-ENT。 |
| 5 | Jsonl 它是格式化为 JSONL 的 NER 数据,每行一个字典,以及“text”和“spans”键。 |
广告