- spaCy 教程
- spaCy - 首页
- spaCy - 简介
- spaCy - 入门
- spaCy - 模型和语言
- spaCy - 架构
- spaCy - 命令行帮助工具
- spaCy - 顶级函数
- spaCy - 可视化函数
- spaCy - 实用程序函数
- spaCy - 兼容性函数
- spaCy - 容器
- Doc 类 ContextManager 和 Property
- spaCy - 容器 Token 类
- spaCy - Token 属性
- spaCy - 容器 Span 类
- spaCy - Span 类属性
- spaCy - 容器 Lexeme 类
- 训练神经网络模型
- 更新神经网络模型
- spaCy 有用资源
- spaCy - 快速入门指南
- spaCy - 实用资源
- spaCy - 讨论
spaCy - Util.compile_suffix_regex
此实用程序函数将把一系列后缀规则编译成正则表达式对象。
参数
下表解释了其参数 -
| 名称 | 类型 | 说明 |
|---|---|---|
| entries | 元组 | 此参数表示后缀规则。例如,lang.punctuation.TOKENIZER_SUFFIXES</>。 |
语法
suffixes = ("'s", "'S", r"(?<=[0-9])+")
suffix_reg = util.compile_suffix_regex(suffixes)
nlp.tokenizer.suffix_search = suffix_reg.search
示例
import spacy
nlp = spacy.load('en_core_web_sm')
suffixes = list(nlp.Defaults.suffixes)
suffixes.remove('\\]')
suffix_regex = spacy.util.compile_suffix_regex(suffixes)
nlp.tokenizer.suffix_search = suffix_regex.search
doc = nlp("[A] works for [B] in [C].")
print([t.text for t in doc])
# ['[A]', 'works', 'for', '[B]', 'in', '[C]', '.']
输出
['[', 'A]', 'works', 'for', '[', 'B]', 'in', '[', 'C]', '.']
spacy_util_get_data_path.htm
广告