- spaCy 教程
- spaCy - 首页
- spaCy - 简介
- spaCy - 快速入门
- spaCy - 模型和语言
- spaCy - 架构
- spaCy - 命令行助手
- spaCy - 顶级函数
- spaCy - 可视化函数
- spaCy - 实用函数
- spaCy - 兼容性函数
- spaCy - 容器
- Doc 类上下文管理器和属性
- spaCy - 容器 Token 类
- spaCy - Token 属性
- spaCy - 容器 Span 类
- spaCy - Span 类属性
- spaCy - 容器 Lexeme 类
- 训练神经网络模型
- 更新神经网络模型
- spaCy 有用资源
- spaCy - 快速指南
- spaCy - 有用资源
- spaCy - 讨论
spaCy - 训练命令
顾名思义,此命令将训练一个模型。输出将采用 spaCy 的 JSON 格式,并且每个 epoch 模型都将保存到目录中。
要使用 spaCy package 命令打包模型,模型详细信息和准确性分数将添加到 meta.json 文件中。
训练命令如下所示
python -m spacy [lang] [output_path] [train_path] [dev_path] [--base-model] [--pipeline] [--vectors] [--n-iter] [--n-early-stopping][--n-examples] [--use-gpu] [--version] [--meta-path] [--init-tok2vec][--parser-multitasks] [--entity-multitasks] [--gold-preproc] [--noise-level][--orth-variant-level] [--learn-tokens] [--textcat-arch] [--textcat-multilabel][--textcat-positive-label] [--verbose]
参数
下表解释了它的参数:
参数 | 类型 | 描述 |
---|---|---|
Lang | 位置参数 | 此参数用于模型语言。 |
output_path | 位置参数 | 此参数表示存储模型的目录。如果它不存在,则会创建它。 |
train_path | 位置参数 | 这是 JSON 格式的训练数据的路径,可以是文件或文件目录。 |
dev_path | 位置参数 | 这是用于评估的 JSON 格式的开发数据的路径,可以是文件或文件目录。 |
--base-model, -b | 可选参数 | 在 2.1 版本中引入,表示要更新的基础模型的名称。它是可选的,可以是任何可加载的 spaCy 模型。 |
--pipeline, -p | 可选参数 | 它也在 2.1 版本中引入。这是要训练的管道组件的逗号分隔名称。默认值为“tagger,parser,ner”。 |
--replace-components, -R | 标志 | 此参数将替换基础模型中的组件。 |
--vectors, -v | 可选参数 | 应从中加载向量的模型。 |
--n-iter, -n | 可选参数 | 它将给出迭代次数。默认值为 30。 |
--n-early-stopping, -ne | 可选参数 | 它表示开发精度没有提高的最大训练 epoch 数。 |
--n-examples, -ns | 可选参数 | 它将是要使用的示例数量。值为 0 将使用所有示例。 |
--use-gpu, -g | 可选参数 | 如果要使用 GPU,请使用此参数。你需要提供 GPU ID。默认值为 -1,仅用于 CPU。 |
--version, -V | 可选参数 | 它将是模型版本。 |
--meta-path, -m | 可选参数 | 在 2.0 版本中引入,表示模型 meta.json 的可选路径。它将覆盖所有相关的属性,例如 lang、pipeline 和 spacy_version。 |
--init-tok2vec, -t2v | 可选参数 | 在 2.1 版本中引入,表示模型 token-to-vector 部分的预训练权重的路径。 |
--parser-multitasks, -pt | 可选参数 | 它是解析器 CNN 的辅助目标。例如,“dep”或“dep,tag”。 |
--entity-multitasks, -et | 可选参数 | 它是 NER CNN 的辅助目标。例如,“dep”或“dep,tag”。 |
--width, -cw | 可选参数 | 在 2.2.4 版本中引入,表示 Tok2Vec 组件的 CNN 层的宽度。 |
--conv-depth, -cd | 可选参数 | 在 2.2.4 版本中引入,表示 Tok2Vec 组件的 CNN 层的深度。 |
--cnn-window, -cW | 可选参数 | 在 2.2.4 版本中引入,表示 Tok2Vec 组件的 CNN 层的窗口大小。 |
--cnn-pieces, -cP | 可选参数 | 在 2.2.4 版本中引入,表示 Tok2Vec 组件的 CNN 层的最大输出大小。 |
--bilstm-depth, -lstm | 可选参数 | 在 2.2.4 版本中引入,表示 Tok2Vec 组件的 BiLSTM 层的深度。 |
--embed-rows, -er | 可选参数 | 此参数指示数据增强的损坏量。值为浮点数。 |
--orth-variant-level, -ovl | 可选参数 | 此参数指示数据增强的正字法变化。 |
--gold-preproc, -G | 标志 | 此标志将使用黄金预处理。 |
--learn-tokens, -T | 标志 | 它是标志,使解析器通过合并子标记来学习黄金标准分词。通常用于中文等语言。 |
--textcat-multilabel, -TML | 标志 | 在 2.2 版本中引入,表示文本分类类别不是互斥的(多标签)。 |
--textcat-arch, -ta | 可选参数 | 在 2.2 版本中引入,表示文本分类模型架构。默认值为“bow”。 |
--textcat-positive-label, -tpl | 可选参数 | 在 2.2 版本中引入,表示具有两个标签的二元类别的文本分类正标签。 |
--tag-map-path, -tm | 可选参数 | 在 2.2.4 版本中引入,表示 JSON 格式的标签映射的路径。 |
--verbose, -VV | 标志 | 在 2.0.13 版本中引入,显示训练期间更详细的消息。 |
--help, -h | 标志 | 此参数用于显示帮助消息和可用参数。 |
spacy_command_line_helpers.htm
广告