spaCy - 容器 Span 类



本章将帮助您理解 spaCy 中的 Span 类。

Span 类

它是从上面讨论过的Doc对象中切片。

属性

下表解释了它的参数:

名称 类型 描述
doc Doc 它代表父文档。
tensor V2.1.7 Ndarray 在 2.1.7 版本中引入,代表 span 在父Doc张量中的切片。
sent Span 它实际上是此 span 所属的句子 span。
start Int 此属性是 span 起始的标记偏移量。
end Int 此属性是 span 结束的标记偏移量。
start_char Int 表示 span 起始字符偏移量的整数类型属性。
end_char Int 表示 span 结束字符偏移量的整数类型属性。
text Unicode 它是一个 Unicode 字符串,表示 span 文本。
text_with_ws Unicode 它表示 span 的文本内容,如果最后一个标记有尾随空格字符,则包含尾随空格字符。
orth Int 此属性是逐字文本内容的 ID。
orth_ Unicode 它是 Unicode 逐字文本内容,与Token.text相同。此文本内容主要为了与其他属性保持一致。
label Int 此整数属性是 span 标签的哈希值。
label_ Unicode 它是 span 的标签。
lemma_ Unicode 它是 span 的词形。
kb_id Int 它表示 span 引用的知识库 ID 的哈希值。
kb_id_ Unicode 它表示 span 引用的知识库 ID。
ent_id Int 此属性表示标记所属命名实体的哈希值。
ent_id_ Unicode 此属性表示标记所属命名实体的字符串 ID。
sentiment Float 一个浮点类型的标量值,表示 span 的积极性或消极性。
_ 下划线 它代表用户空间,用于添加自定义属性扩展。

方法

以下是 Span 类中使用的方法:

序号 方法及描述
1 Span._ _init_ _

从切片 doc[start : end] 构造 Span 对象。

2 Span._ _getitem_ _

获取特定位置(例如 n,其中 n 是整数)处的标记对象。

3 Span._ _iter_ _

迭代那些可以轻松访问其注释的标记对象。

4 Span._ _len_ _

获取 span 中标记的数量。

5 Span.similarity

进行语义相似性估计。

6 Span.merge

重新标记文档,使 span 合并成单个标记。

类方法

以下是 Span 类中使用的类方法:

序号 类方法及描述
1 Span.set_extension

它在 Span 上定义自定义属性。

2 Span.get_extension

按名称查找先前扩展。

3 Span.has_extension

检查是否已在 Span 类上注册扩展。

4 Span.remove_extension

删除先前在 Span 类上注册的扩展。

广告