- spaCy 教程
- spaCy - 主页
- spaCy - 简介
- spaCy - 入门
- spaCy - 模型和语言
- spaCy - 架构
- spaCy - 命令行帮助
- spaCy - 顶级函数
- spaCy - 可视化功能
- spaCy - 实用程序函数
- spaCy - 兼容性函数
- spaCy - 容器
- Doc 类上下文管理器和属性
- spaCy - 容器 Token 类
- spaCy - Token 属性
- spaCy - 容器 Span 类
- spaCy - Span 类属性
- spaCy - 容器 Lexeme 类
- 训练神经网络模型
- 更新神经网络模型
- spaCy 有用资源
- spaCy - 快速指南
- spaCy - 有用资源
- spaCy - 讨论
spaCy - Retokenizer.split 方法
此 retokenizer 方法将标记一个用于分割为指定 orth 的 token。
参数
下表解释了其参数 −
名称 | 类型 | 说明 |
---|---|---|
Token | Token | 表示要分割的 token。 |
Orths | 列表 | 表示分割 token 的直接文本。条件是它必须与原始 token 的文本匹配。 |
Heads | 列表 | 指定要将新分割的子 token 附加到的 token 或元组的列表。 |
Attrs | 字典 | 这些是在所有分割 token 上设置的属性。要求属性名称必须映射到每个 token 的属性值列表。 |
示例
Retokenizer.split 方法的示例如下 −
import spacy nlp_model = spacy.load("en_core_web_sm") doc = nlp_model("I like the Tutorialspoint.com") with doc.retokenize() as retokenizer: heads = [(doc[3], 1), doc[2]] attrs = {"POS": ["PROPN", "PROPN"], "DEP": ["pobj", "compound"]} retokenizer.split(doc[3], ["Tutorials", "point.com"], heads=heads, attrs=attrs) doc
输出
您将收到以下输出 −
I like the Tutorialspoint.com
spacy_doc_class_contextmanager_and_property.htm
广告