- spaCy 教程
- spaCy - 首页
- spaCy - 简介
- spaCy - 入门
- spaCy - 模型和语言
- spaCy - 架构
- spaCy - 命令行助手
- spaCy - 顶级函数
- spaCy - 可视化函数
- spaCy - 实用函数
- spaCy - 兼容性函数
- spaCy - 容器
- Doc 类上下文管理器和属性
- spaCy - 容器 Token 类
- spaCy - Token 属性
- spaCy - 容器 Span 类
- spaCy - Span 类属性
- spaCy - 容器 Lexeme 类
- 训练神经网络模型
- 更新神经网络模型
- spaCy 有用资源
- spaCy - 快速指南
- spaCy - 有用资源
- spaCy - 讨论
spaCy - 容器 Span 类
本章将帮助您理解 spaCy 中的 Span 类。
Span 类
它是从上面讨论过的Doc对象中切片。
属性
下表解释了它的参数:
名称 | 类型 | 描述 |
---|---|---|
doc | Doc | 它代表父文档。 |
tensor V2.1.7 | Ndarray | 在 2.1.7 版本中引入,代表 span 在父Doc张量中的切片。 |
sent | Span | 它实际上是此 span 所属的句子 span。 |
start | Int | 此属性是 span 起始的标记偏移量。 |
end | Int | 此属性是 span 结束的标记偏移量。 |
start_char | Int | 表示 span 起始字符偏移量的整数类型属性。 |
end_char | Int | 表示 span 结束字符偏移量的整数类型属性。 |
text | Unicode | 它是一个 Unicode 字符串,表示 span 文本。 |
text_with_ws | Unicode | 它表示 span 的文本内容,如果最后一个标记有尾随空格字符,则包含尾随空格字符。 |
orth | Int | 此属性是逐字文本内容的 ID。 |
orth_ | Unicode | 它是 Unicode 逐字文本内容,与Token.text相同。此文本内容主要为了与其他属性保持一致。 |
label | Int | 此整数属性是 span 标签的哈希值。 |
label_ | Unicode | 它是 span 的标签。 |
lemma_ | Unicode | 它是 span 的词形。 |
kb_id | Int | 它表示 span 引用的知识库 ID 的哈希值。 |
kb_id_ | Unicode | 它表示 span 引用的知识库 ID。 |
ent_id | Int | 此属性表示标记所属命名实体的哈希值。 |
ent_id_ | Unicode | 此属性表示标记所属命名实体的字符串 ID。 |
sentiment | Float | 一个浮点类型的标量值,表示 span 的积极性或消极性。 |
_ | 下划线 | 它代表用户空间,用于添加自定义属性扩展。 |
方法
以下是 Span 类中使用的方法:
序号 | 方法及描述 |
---|---|
1 | Span._ _init_ _ 从切片 doc[start : end] 构造 Span 对象。 |
2 | Span._ _getitem_ _ 获取特定位置(例如 n,其中 n 是整数)处的标记对象。 |
3 | Span._ _iter_ _ 迭代那些可以轻松访问其注释的标记对象。 |
4 | Span._ _len_ _ 获取 span 中标记的数量。 |
5 | Span.similarity 进行语义相似性估计。 |
6 | Span.merge 重新标记文档,使 span 合并成单个标记。 |
类方法
以下是 Span 类中使用的类方法:
序号 | 类方法及描述 |
---|---|
1 | Span.set_extension 它在 Span 上定义自定义属性。 |
2 | Span.get_extension 按名称查找先前扩展。 |
3 | Span.has_extension 检查是否已在 Span 类上注册扩展。 |
4 | Span.remove_extension 删除先前在 Span 类上注册的扩展。 |
广告