- spaCy 教程
- spaCy - 主页
- spaCy - 简介
- spaCy -入门
- spaCy - 模型和语言
- spaCy - 架构
- spaCy - 命令行帮助程序
- spaCy - 顶级函数
- spaCy - 可视化函数
- spaCy - 实用程序函数
- spaCy - 兼容性函数
- spaCy - 容器
- Doc 类 ContextManager 和 Property
- spaCy - 容器令牌类
- spaCy - 令牌属性
- spaCy - 容器 Span 类
- spaCy - span 类属性
- spaCy - 容器 Lexeme 类
- 训练神经网络模型
- 更新神经网络模型
- spaCy 有用资源
- spaCy - 快速指南
- spaCy - 有用资源
- spaCy - 讨论
spaCy - util.compile_prefix_regex
此实用程序函数将一系列前缀规则编译到 regex 对象中。
参数
下表说明了其参数 -
名称 | 类型 | 说明 |
---|---|---|
entries | 元组 | 此参数表示前缀规则。例如,lang.punctuation.TOKENIZER_PREFIXES</>. |
语法
prefixes = ("§", "%", "=", r"+") prefix_reg = spacy.util.compile_prefix_regex(prefixes) nlp.tokenizer.prefix_search = prefix_reg.search
示例
import spacy nlp = spacy.load('en_core_web_sm') prefixes = list(nlp.Defaults.prefixes) prefixes.remove('\\[') prefix_regex = spacy.util.compile_prefix_regex(prefixes) nlp.tokenizer.prefix_search = prefix_regex.search doc = nlp("[A] works for [B] in [C].") print([t.text for t in doc]) # ['[A]', 'works', 'for', '[B]', 'in', '[C]', '.']
输出
['[A', ']', 'works', 'for', '[B', ']', 'in', '[C', ']', '.']
spacy_util_get_data_path.htm
广告