spaCy - 转换命令



顾名思义,此命令会将文件转换为 spaCy 的 JavaScript 对象表示法(JSON 格式),尤其适用于与 train 命令和其他实验管理功能一起使用。

转换命令如下:

python -m spacy convert [input_file] [output_dir] [--file-type] [--converter][--n-sents] [--morphology] [--lang]

参数

下表解释了其参数:

参数 类型 描述
input_file 位置参数 它代表输入文件。
output_dir 位置参数 此参数代表转换文件的输出目录。默认为“-”,表示数据将写入标准输出。
--file-type, -t 选项 它是要创建的文件类型。
--converter, -c 选项 它代表要使用的转换器的名称。
--n-sents, -n 选项 它代表每个文档的句子数。
--seg-sents, -s 标志 用于分句(对于 -c ner)。
--model, -b 选项 它代表基于解析器的分句模型(对于 -s)。
--morphology, -m 选项 此参数启用将形态附加到标签。
--lang, -l 选项 它是语言代码,如果需要分词器则使用。
--help, -h 标志 此参数将显示帮助信息和其他可用参数。

以下是可以使用此命令生成的输出文件类型:

  • json - 它是常规 JSON,也是默认输出文件类型。

  • jsonl - 它是换行符分隔的 JSON。

  • msg - 它是二进制 MessagePack 格式。

转换器选项

下表显示了转换器选项:

序号 ID 和描述
1

自动

它将根据文件扩展名和文件内容自动选择转换器。

2

conll, conllu, conllubio

这些是通用依赖项 .conllu 或 .conll 格式。

3

Ner

它具有 IOB/IOB2 标签的 NER。其中,每行一个标记,列用空格分隔。第一列是标记,最后一列是 IOB 标签。句子用空行分隔,文档用“-DOCSTART- -X- O O”行分隔。支持 CoNLL 2003 NER 格式。

4

Iob

它具有 IOB/IOB2 标签的 NER。其中,每行一个句子,标记用空格分隔,注释用 | 分隔,例如word|B-ENT 或 word|POS|B-ENT

5

Jsonl

它是格式化为 JSONL 的 NER 数据,每行一个字典,以及“text”和“spans”键。

广告
© . All rights reserved.