- spaCy 教程
- spaCy - 首页
- spaCy - 简介
- spaCy - 快速上手
- spaCy - 模型和语言
- spaCy - 架构
- spaCy - 命令行工具
- spaCy - 顶级函数
- spaCy - 可视化函数
- spaCy - 实用函数
- spaCy - 兼容性函数
- spaCy - 容器
- Doc 类上下文管理器和属性
- spaCy - 容器 Token 类
- spaCy - Token 属性
- spaCy - 容器 Span 类
- spaCy - Span 类属性
- spaCy - 容器 Lexeme 类
- 训练神经网络模型
- 更新神经网络模型
- spaCy 有用资源
- spaCy - 快速指南
- spaCy - 有用资源
- spaCy - 讨论
spaCy - 容器 Token 类
本章将帮助读者理解 spaCy 中的 Token 类。
Token 类
如前所述,Token 类代表单个标记,例如单词、标点符号、空格、符号等。
属性
下表解释了它的属性:
名称 | 类型 | 描述 |
---|---|---|
Doc | Doc | 它代表父文档。 |
sent | Span | 在 2.0.12 版本中引入,代表此 token 所属的句子范围。 |
Text | unicode | 它是 Unicode 原文文本内容。 |
text_with_ws | unicode | 它代表文本内容,包含尾随空格字符(如果存在)。 |
whitespace_ | unicode | 顾名思义,它是尾随空格字符(如果存在)。 |
Orth | int | 它是 Unicode 原文文本内容的 ID。 |
orth_ | unicode | 它是与 Token.text 完全相同的 Unicode 原文文本内容。此文本内容主要为了与其他属性保持一致。 |
Vocab | Vocab | 此属性代表父 Doc 的 vocab 对象。 |
tensor | ndarray | 在 2.1.7 版本中引入,代表 token 在父 Doc 张量中的切片。 |
Head | Token | 它是此 token 的句法父节点。 |
left_edge | Token | 顾名思义,它是此 token 的句法后代中最左边的 token。 |
right_edge | Token | 顾名思义,它是此 token 的句法后代中最右边的 token。 |
I | Int | 整数类型属性,表示 token 在父文档中的索引。 |
ent_type | int | 它是命名实体类型。 |
ent_type_ | unicode | 它是命名实体类型。 |
ent_iob | int | 它是命名实体标记的 IOB 代码。这里,3 = token 开始一个实体,2 = 它在实体之外,1 = 它在实体内部,0 = 没有设置实体标记。 |
ent_iob_ | unicode | 它是命名实体标记的 IOB 代码。“B”= token 开始一个实体,“I”= 它在实体内部,“O”= 它在实体之外,"" = 没有设置实体标记。 |
ent_kb_id | int | 在 2.2 版本中引入,代表知识库 ID,它指向此 token 所属的命名实体。 |
ent_kb_id_ | unicode | 在 2.2 版本中引入,代表知识库 ID,它指向此 token 所属的命名实体。 |
ent_id | int | 它是 token 是其实例的实体的 ID(如果有)。此属性目前未使用,但可能用于共指消解。 |
ent_id_ | unicode | 它是 token 是其实例的实体的 ID(如果有)。此属性目前未使用,但可能用于共指消解。 |
Lemma | int | Lemma 是 token 的基本形式,没有词尾后缀。 |
lemma_ | unicode | 它是 token 的基本形式,没有词尾后缀。 |
Norm | int | 此属性代表 token 的规范形式。 |
norm_ | unicode | 此属性代表 token 的规范形式。 |
Lower | int | 顾名思义,它是 token 的小写形式。 |
lower_ | unicode | 它也是 token 文本的小写形式,等效于 Token.text.lower()。 |
Shape | int | 为了显示正字法特征,此属性用于转换 token 的字符串。 |
shape_ | unicode | 为了显示正字法特征,此属性用于转换 token 的字符串。 |
Prefix | int | 它是从 token 开始处长度为 N 的子字符串的哈希值。默认值为 N=1。 |
prefix_ | unicode | 它是从 token 开始处长度为 N 的子字符串。默认值为 N=1。 |
Suffix | int | 它是从 token 末尾处长度为 N 的子字符串的哈希值。默认值为 N=3。 |
suffix_ | unicode | 它是从 token 末尾处长度为 N 的子字符串。默认值为 N=3。 |
is_alpha | bool | 此属性表示 token 是否由字母字符组成?它等效于 token.text.isalpha()。 |
is_ascii | bool | 此属性表示 token 是否由 ASCII 字符组成?它等效于 all(ord(c) < 128 for c in token.text)。 |
is_digit | Bool | 此属性表示 token 是否由数字组成?它等效于 token.text.isdigit()。 |
is_lower | Bool | 此属性表示 token 是否是小写?它等效于 token.text.islower()。 |
is_upper | Bool | 此属性表示 token 是否是大写?它等效于 token.text.isupper()。 |
is_title | bool | 此属性表示 token 是否是标题大小写?它等效于 token.text.istitle()。 |
is_punct | bool | 此属性表示 token 是否是标点符号? |
is_left_punct | bool | 此属性表示 token 是否是左标点符号,例如 '('? |
is_right_punct | bool | 此属性表示 token 是否是右标点符号,例如 ')'? |
is_space | bool | 此属性表示 token 是否由空格字符组成?它等效于 token.text.isspace()。 |
is_bracket | bool | 此属性表示 token 是否是括号? |
is_quote | bool | 此属性表示 token 是否是引号? |
is_currency | bool | 在 2.0.8 版本中引入,此属性表示 token 是否是货币符号? |
like_url | bool | 此属性表示 token 是否类似于 URL? |
like_num | bool | 此属性表示 token 是否代表一个数字? |
like_email | bool | 此属性表示 token 是否类似于电子邮件地址? |
is_oov | bool | 此属性表示 token 是否有词向量? |
is_stop | bool | 此属性表示 token 是否是“停用词列表”的一部分? |
Pos | int | 它代表来自通用 POS 标记集的粗粒度词性。 |
pos_ | unicode | 它代表来自通用 POS 标记集的粗粒度词性。 |
Tag | int | 它代表细粒度的词性。 |
tag_ | unicode | 它代表细粒度的词性。 |
Dep | int | 此属性代表句法依存关系。 |
dep_ | unicode | 此属性代表句法依存关系。 |
Lang | Int | 此属性代表父文档词汇的语言。 |
lang_ | unicode | 此属性代表父文档词汇的语言。 |
Prob | float | 它是 token 词类型的平滑对数概率估计。 |
Idx | int | 它是 token 在父文档中的字符偏移量。 |
Sentiment | float | 它代表一个标量值,指示 token 的积极性或消极性。 |
lex_id | int | 它代表 token 词法类型的顺序 ID,用于索引到表格中。 |
Rank | int | 它代表 token 词法类型的顺序 ID,用于索引到表格中。 |
Cluster | int | 它是 Brown 聚类 ID。 |
_ | Underscore | 它代表用户空间,用于添加自定义属性扩展。 |
方法
以下是 Token 类中使用的方法:
序号 | 方法和描述 |
---|---|
1 | Token._ _init_ _ 它用于构造 Token 对象。 |
2 | Token.similarity 它用于计算语义相似性估计。 |
3 | Token.check_flag 它用于检查布尔标志的值。 |
4 | Token._ _len_ _ 它用于计算 token 中 Unicode 字符的数量。 |
类方法
以下是 Token 类中使用的类方法:
序号 | 类方法和描述 |
---|---|
1 | Token.set_extension 它在 Token 上定义一个自定义属性。 |
2 | Token.get_extension 它将按名称查找先前扩展。 |
3 | Token.has_extension 它将检查是否已在 Token 类上注册扩展。 |
4 | Token.remove_extension 它将删除先前在 Token 类上注册的扩展。 |
广告