spaCy - 词元属性



在本章中,我们将学习关于 spaCy 中 Token 类的属性。

属性

以下是列出的 Token 属性及其描述。

序号 Token 属性 & 描述
1

Token.ancestors

用于此词元的句法后代的最右侧词元。

2

Token.conjuncts

用于返回一个协调词元的元组。

3

Token.children

用于返回词元直接句法子词元的序列。

4

Token.lefts

用于单词的左侧直接子词元。

5

Token.rights

用于单词的右侧直接子词元。

6

Token.n_rights

用于单词右侧直接子词元的数量。

7

Token.n_lefts

用于单词左侧直接子词元的数量。

8

Token.subtree

这将产生一个包含词元及其所有句法后代的序列。

9

Token.vector

这表示一个实数值含义。

10

Token.vector_norm

这表示词元向量表示的 L2 范数。

Token.ancestors

此词元属性用于此词元的句法后代的最右侧词元。

示例

下面给出了 Token.ancestors 属性的示例:

import spacy
nlp_model = spacy.load("en_core_web_sm")
from spacy.tokens import Token
doc = nlp_model("Give it back! He pleaded.")

it_ancestors = doc[1].ancestors
[t.text for t in it_ancestors]

输出

['Give']

Token.conjuncts

此词元属性用于返回一个协调词元的元组。此处,词元本身不会被包含。

示例

Token.conjuncts 属性的示例如下:

import spacy
nlp_model = spacy.load("en_core_web_sm")
from spacy.tokens import Token
doc = nlp_model("I like cars and bikes")
cars_conjuncts = doc[2].conjuncts
[t.text for t in cars_conjuncts]

输出

输出如下:

['bikes']

Token.children

此词元属性用于返回词元直接句法子词元的序列。

示例

Token.children 属性的示例如下:

import spacy
nlp_model = spacy.load("en_core_web_sm")
from spacy.tokens import Token
doc = nlp_model("This is Tutorialspoint.com.")
give_child = doc[1].children
[t.text for t in give_child]

输出

['This', 'Tutorialspoint.com', '.']

Token.lefts

此词元属性用于单词的左侧直接子词元。它将位于句法依存分析中。

示例

Token.lefts 属性的示例如下:

import spacy
nlp_model = spacy.load("en_core_web_sm")
from spacy.tokens import Token
doc = nlp_model("This is Tutorialspoint.com.")
left_child = [t.text for t in doc[1].lefts]
left_child

输出

您将获得以下输出:

['This']

Token.rights

此词元属性用于单词的右侧直接子词元。它将位于句法依存分析中。

示例

下面给出了 Token.rights 属性的示例:

import spacy
nlp_model = spacy.load("en_core_web_sm")
from spacy.tokens import Token
doc = nlp_model("This is Tutorialspoint.com.")
right_child = [t.text for t in doc[1].rights]
right_child

输出

['Tutorialspoint.com', '.']

Token.n_rights

此词元属性用于单词右侧直接子词元的数量。它将位于句法依存分析中。

示例

下面给出了 Token.n_rights 属性的示例:

import spacy
nlp_model = spacy.load("en_core_web_sm")
from spacy.tokens import Token
doc = nlp_model("This is Tutorialspoint.com.")
doc[1].n_rights

输出

2

Token.n_lefts

此词元属性用于单词左侧直接子词元的数量。它将位于句法依存分析中。

示例

Token.n_lefts 属性的示例如下:

import spacy
nlp_model = spacy.load("en_core_web_sm")
from spacy.tokens import Token
doc = nlp_model("This is Tutorialspoint.com.")
doc[1].n_lefts

输出

输出如下:

1

Token.subtree

此词元属性产生一个包含词元及其所有句法后代的序列。

示例

Token.subtree 属性的示例如下:

import spacy
nlp_model = spacy.load("en_core_web_sm")
from spacy.tokens import Token
doc = nlp_model("This is Tutorialspoint.com.")
subtree_doc = doc[1].subtree
[t.text for t in subtree_doc]

输出

['This', 'is', 'Tutorialspoint.com', '.']

Token.vector

此词元属性表示一个实数值含义。它将返回一个表示词元语义的一维数组。

示例 1

Token.vector 属性的示例如下:

import spacy
nlp_model = spacy.load("en_core_web_sm")
doc = nlp_model("The website is Tutorialspoint.com.")
doc.vector.dtype

输出

输出如下:

dtype('float32')

示例 2

下面给出了 Token.vector 属性的另一个示例:

doc.vector.shape

输出

输出如下:

(96,)

Token.vector_norm

此词元属性表示词元向量表示的 L2 范数。

示例

下面给出了 Token.vector_norm 属性的示例:

import spacy
nlp_model = spacy.load("en_core_web_sm")
doc1 = nlp_model("The website is Tutorialspoint.com.")
doc2 = nlp_model("It is having best technical tutorials.")
doc1[2].vector_norm !=doc2[2].vector_norm

输出

True
广告

© . All rights reserved.