spaCy - 容器 Token 类



本章将帮助读者理解 spaCy 中的 Token 类。

Token 类

如前所述,Token 类代表单个标记,例如单词、标点符号、空格、符号等。

属性

下表解释了它的属性:

名称 类型 描述
Doc Doc 它代表父文档。
sent Span 在 2.0.12 版本中引入,代表此 token 所属的句子范围。
Text unicode 它是 Unicode 原文文本内容。
text_with_ws unicode 它代表文本内容,包含尾随空格字符(如果存在)。
whitespace_ unicode 顾名思义,它是尾随空格字符(如果存在)。
Orth int 它是 Unicode 原文文本内容的 ID。
orth_ unicode 它是与 Token.text 完全相同的 Unicode 原文文本内容。此文本内容主要为了与其他属性保持一致。
Vocab Vocab 此属性代表父 Doc 的 vocab 对象。
tensor ndarray 在 2.1.7 版本中引入,代表 token 在父 Doc 张量中的切片。
Head Token 它是此 token 的句法父节点。
left_edge Token 顾名思义,它是此 token 的句法后代中最左边的 token。
right_edge Token 顾名思义,它是此 token 的句法后代中最右边的 token。
I Int 整数类型属性,表示 token 在父文档中的索引。
ent_type int 它是命名实体类型。
ent_type_ unicode 它是命名实体类型。
ent_iob int 它是命名实体标记的 IOB 代码。这里,3 = token 开始一个实体,2 = 它在实体之外,1 = 它在实体内部,0 = 没有设置实体标记。
ent_iob_ unicode 它是命名实体标记的 IOB 代码。“B”= token 开始一个实体,“I”= 它在实体内部,“O”= 它在实体之外,"" = 没有设置实体标记。
ent_kb_id int 在 2.2 版本中引入,代表知识库 ID,它指向此 token 所属的命名实体。
ent_kb_id_ unicode 在 2.2 版本中引入,代表知识库 ID,它指向此 token 所属的命名实体。
ent_id int 它是 token 是其实例的实体的 ID(如果有)。此属性目前未使用,但可能用于共指消解。
ent_id_ unicode 它是 token 是其实例的实体的 ID(如果有)。此属性目前未使用,但可能用于共指消解。
Lemma int Lemma 是 token 的基本形式,没有词尾后缀。
lemma_ unicode 它是 token 的基本形式,没有词尾后缀。
Norm int 此属性代表 token 的规范形式。
norm_ unicode 此属性代表 token 的规范形式。
Lower int 顾名思义,它是 token 的小写形式。
lower_ unicode 它也是 token 文本的小写形式,等效于 Token.text.lower()。
Shape int 为了显示正字法特征,此属性用于转换 token 的字符串。
shape_ unicode 为了显示正字法特征,此属性用于转换 token 的字符串。
Prefix int 它是从 token 开始处长度为 N 的子字符串的哈希值。默认值为 N=1。
prefix_ unicode 它是从 token 开始处长度为 N 的子字符串。默认值为 N=1。
Suffix int 它是从 token 末尾处长度为 N 的子字符串的哈希值。默认值为 N=3。
suffix_ unicode 它是从 token 末尾处长度为 N 的子字符串。默认值为 N=3。
is_alpha bool 此属性表示 token 是否由字母字符组成?它等效于 token.text.isalpha()。
is_ascii bool 此属性表示 token 是否由 ASCII 字符组成?它等效于 all(ord(c) < 128 for c in token.text)。
is_digit Bool 此属性表示 token 是否由数字组成?它等效于 token.text.isdigit()。
is_lower Bool 此属性表示 token 是否是小写?它等效于 token.text.islower()。
is_upper Bool 此属性表示 token 是否是大写?它等效于 token.text.isupper()。
is_title bool 此属性表示 token 是否是标题大小写?它等效于 token.text.istitle()。
is_punct bool 此属性表示 token 是否是标点符号?
is_left_punct bool 此属性表示 token 是否是左标点符号,例如 '('?
is_right_punct bool 此属性表示 token 是否是右标点符号,例如 ')'?
is_space bool 此属性表示 token 是否由空格字符组成?它等效于 token.text.isspace()。
is_bracket bool 此属性表示 token 是否是括号?
is_quote bool 此属性表示 token 是否是引号?
is_currency bool 在 2.0.8 版本中引入,此属性表示 token 是否是货币符号?
like_url bool 此属性表示 token 是否类似于 URL?
like_num bool 此属性表示 token 是否代表一个数字?
like_email bool 此属性表示 token 是否类似于电子邮件地址?
is_oov bool 此属性表示 token 是否有词向量?
is_stop bool 此属性表示 token 是否是“停用词列表”的一部分?
Pos int 它代表来自通用 POS 标记集的粗粒度词性。
pos_ unicode 它代表来自通用 POS 标记集的粗粒度词性。
Tag int 它代表细粒度的词性。
tag_ unicode 它代表细粒度的词性。
Dep int 此属性代表句法依存关系。
dep_ unicode 此属性代表句法依存关系。
Lang Int 此属性代表父文档词汇的语言。
lang_ unicode 此属性代表父文档词汇的语言。
Prob float 它是 token 词类型的平滑对数概率估计。
Idx int 它是 token 在父文档中的字符偏移量。
Sentiment float 它代表一个标量值,指示 token 的积极性或消极性。
lex_id int 它代表 token 词法类型的顺序 ID,用于索引到表格中。
Rank int 它代表 token 词法类型的顺序 ID,用于索引到表格中。
Cluster int 它是 Brown 聚类 ID。
_ Underscore 它代表用户空间,用于添加自定义属性扩展。

方法

以下是 Token 类中使用的方法:

序号 方法和描述
1 Token._ _init_ _

它用于构造 Token 对象。

2 Token.similarity

它用于计算语义相似性估计。

3 Token.check_flag

它用于检查布尔标志的值。

4 Token._ _len_ _

它用于计算 token 中 Unicode 字符的数量。

类方法

以下是 Token 类中使用的类方法:

序号 类方法和描述
1 Token.set_extension

它在 Token 上定义一个自定义属性。

2 Token.get_extension

它将按名称查找先前扩展。

3 Token.has_extension

它将检查是否已在 Token 类上注册扩展。

4 Token.remove_extension

它将删除先前在 Token 类上注册的扩展。

广告