spaCy - 训练命令



顾名思义,此命令将训练一个模型。输出将采用 spaCy 的 JSON 格式,并且每个 epoch 模型都将保存到目录中。

要使用 spaCy package 命令打包模型,模型详细信息和准确性分数将添加到 meta.json 文件中。

训练命令如下所示

python -m spacy [lang] [output_path] [train_path] [dev_path]
[--base-model] [--pipeline] [--vectors] [--n-iter] [--n-early-stopping][--n-examples] [--use-gpu] [--version] [--meta-path] [--init-tok2vec][--parser-multitasks] [--entity-multitasks] [--gold-preproc] [--noise-level][--orth-variant-level] [--learn-tokens] [--textcat-arch] [--textcat-multilabel][--textcat-positive-label] [--verbose]

参数

下表解释了它的参数:

参数 类型 描述
Lang 位置参数 此参数用于模型语言。
output_path 位置参数 此参数表示存储模型的目录。如果它不存在,则会创建它。
train_path 位置参数 这是 JSON 格式的训练数据的路径,可以是文件或文件目录。
dev_path 位置参数 这是用于评估的 JSON 格式的开发数据的路径,可以是文件或文件目录。
--base-model, -b 可选参数 在 2.1 版本中引入,表示要更新的基础模型的名称。它是可选的,可以是任何可加载的 spaCy 模型。
--pipeline, -p 可选参数 它也在 2.1 版本中引入。这是要训练的管道组件的逗号分隔名称。默认值为“tagger,parser,ner”。
--replace-components, -R 标志 此参数将替换基础模型中的组件。
--vectors, -v 可选参数 应从中加载向量的模型。
--n-iter, -n 可选参数 它将给出迭代次数。默认值为 30。
--n-early-stopping, -ne 可选参数 它表示开发精度没有提高的最大训练 epoch 数。
--n-examples, -ns 可选参数 它将是要使用的示例数量。值为 0 将使用所有示例。
--use-gpu, -g 可选参数 如果要使用 GPU,请使用此参数。你需要提供 GPU ID。默认值为 -1,仅用于 CPU。
--version, -V 可选参数 它将是模型版本。
--meta-path, -m 可选参数 在 2.0 版本中引入,表示模型 meta.json 的可选路径。它将覆盖所有相关的属性,例如 lang、pipeline 和 spacy_version。
--init-tok2vec, -t2v 可选参数 在 2.1 版本中引入,表示模型 token-to-vector 部分的预训练权重的路径。
--parser-multitasks, -pt 可选参数 它是解析器 CNN 的辅助目标。例如,“dep”或“dep,tag”。
--entity-multitasks, -et 可选参数 它是 NER CNN 的辅助目标。例如,“dep”或“dep,tag”。
--width, -cw 可选参数 在 2.2.4 版本中引入,表示 Tok2Vec 组件的 CNN 层的宽度。
--conv-depth, -cd 可选参数 在 2.2.4 版本中引入,表示 Tok2Vec 组件的 CNN 层的深度。
--cnn-window, -cW 可选参数 在 2.2.4 版本中引入,表示 Tok2Vec 组件的 CNN 层的窗口大小。
--cnn-pieces, -cP 可选参数 在 2.2.4 版本中引入,表示 Tok2Vec 组件的 CNN 层的最大输出大小。
--bilstm-depth, -lstm 可选参数 在 2.2.4 版本中引入,表示 Tok2Vec 组件的 BiLSTM 层的深度。
--embed-rows, -er 可选参数 此参数指示数据增强的损坏量。值为浮点数。
--orth-variant-level, -ovl 可选参数 此参数指示数据增强的正字法变化。
--gold-preproc, -G 标志 此标志将使用黄金预处理。
--learn-tokens, -T 标志 它是标志,使解析器通过合并子标记来学习黄金标准分词。通常用于中文等语言。
--textcat-multilabel, -TML 标志 在 2.2 版本中引入,表示文本分类类别不是互斥的(多标签)。
--textcat-arch, -ta 可选参数 在 2.2 版本中引入,表示文本分类模型架构。默认值为“bow”。
--textcat-positive-label, -tpl 可选参数 在 2.2 版本中引入,表示具有两个标签的二元类别的文本分类正标签。
--tag-map-path, -tm 可选参数 在 2.2.4 版本中引入,表示 JSON 格式的标签映射的路径。
--verbose, -VV 标志 在 2.0.13 版本中引入,显示训练期间更详细的消息。
--help, -h 标志 此参数用于显示帮助消息和可用参数。
spacy_command_line_helpers.htm
广告