NumPy char.split() 函数



NumPy 的 char.split() 函数用于根据指定的定界符将数组的每个字符串元素拆分为子字符串列表。

默认情况下,split() 函数以空格为分隔符,但我们可以提供自定义定界符。此函数对于标记化或解析文本数据很有用。

此函数单独处理输入数组中的每个字符串,并返回一个形状相同的数组,其中每个元素都是拆分操作产生的子字符串列表。

语法

以下是 NumPy char.split() 函数的语法:

numpy.char.split(a, sep=None, maxsplit=-1)

参数

以下是 NumPy char.split() 函数的参数:

  • a(类似数组的 str 或 unicode):包含要拆分的字符串的输入数组。

  • sep(str,可选):要拆分字符串的定界符。如果未提供,则默认为空格。

  • maxsplit(int,可选):要执行的最大拆分次数。如果未提供或设置为 -1,则拆分次数没有限制。

返回值

此函数返回一个与输入形状相同的数组,其中每个字符串元素都被拆分操作产生的子字符串列表替换。

示例 1

以下是 NumPy char.split() 函数的基本示例,其中输入数组中的每个字符串在出现空格时都会拆分为子字符串列表。结果数组包含从每个原始字符串中提取的单词列表:

import numpy as np

arr = np.array(['apple banana cherry', 'date elderberry fig'])
split_arr = np.char.split(arr)
print(split_arr)

以下是 numpy.char.split() 函数基本示例的输出:

[list(['apple', 'banana', 'cherry']) list(['date', 'elderberry', 'fig'])]

示例 2

我们可以使用 char.split() 函数根据自定义定界符拆分字符串。这在解析或标记化文本数据时提供了更大的灵活性。在此示例中,我们使用定界符 逗号 (,) 来拆分数组中的字符串:

import numpy as np

arr = np.array(['apple,banana,cherry', 'date,elderberry,fig'])
split_arr = np.char.split(arr, sep=',')
print(split_arr)

以下是使用自定义定界符拆分的输出:

[list(['apple', 'banana', 'cherry']) list(['date', 'elderberry', 'fig'])]

示例 3

我们可以使用 char.split() 函数中的 maxsplit 参数来控制执行的拆分次数。当我们想要限制每个字符串元素产生的子字符串数量时,这很有用。以下示例说明了 maxsplit 参数:

import numpy as np

arr = np.array(['one-two-three-four', 'five-six-seven'])
split_arr = np.char.split(arr, sep='-', maxsplit=2)
print(split_arr)

以下是限制拆分次数的输出:

[list(['one', 'two', 'three-four']) list(['five', 'six', 'seven'])]
numpy_string_functions.htm
广告