spaCy - Retokenizer.split 方法



此 retokenizer 方法将标记一个用于分割为指定 orth 的 token。

参数

下表解释了其参数 −

名称 类型 说明
Token Token 表示要分割的 token。
Orths 列表 表示分割 token 的直接文本。条件是它必须与原始 token 的文本匹配。
Heads 列表 指定要将新分割的子 token 附加到的 token 或元组的列表。
Attrs 字典 这些是在所有分割 token 上设置的属性。要求属性名称必须映射到每个 token 的属性值列表。

示例

Retokenizer.split 方法的示例如下 −

import spacy
nlp_model = spacy.load("en_core_web_sm")
doc = nlp_model("I like the Tutorialspoint.com")
with doc.retokenize() as retokenizer:
   heads = [(doc[3], 1), doc[2]]
   attrs = {"POS": ["PROPN", "PROPN"],
      "DEP": ["pobj", "compound"]}
   retokenizer.split(doc[3], ["Tutorials", "point.com"], heads=heads, attrs=attrs)
doc

输出

您将收到以下输出 −

I like the Tutorialspoint.com
spacy_doc_class_contextmanager_and_property.htm
广告