在 TensorFlow 和 Python 中,什么是 Unicode 脚本?


每个 Unicode 码位都属于一个唯一的码位集合,称为脚本。字符的脚本决定了该字符所属的语言。TensorFlow 带有“strings.unicode_script”方法,可以帮助查找给定码位将使用哪个脚本。脚本代码是 int32 值,可以映射到 Unicode 国际组件 (ICU) 的 UScriptCode 值。

阅读更多: 什么是 TensorFlow 以及 Keras 如何与 TensorFlow 协作创建神经网络?

我们将了解如何使用 Python 表示 Unicode 字符串,以及如何使用 Unicode 等价物来操作它们。首先,在脚本检测的帮助下,根据脚本检测将 Unicode 字符串分成标记,并借助标准字符串操作的 Unicode 等价物。

我们正在使用 Google Colaboratory 来运行以下代码。Google Colab 或 Colaboratory 帮助在浏览器上运行 Python 代码,无需任何配置,并且可以免费访问 GPU(图形处理单元)。Colaboratory 建立在 Jupyter Notebook 之上。

print("The below represent '芸' and 'Б' respectively")
uscript = tf.strings.unicode_script([33464, 1041])  
print(uscript.numpy())   # [17, 8] == [USCRIPT_HAN, USCRIPT_CYRILLIC]
print("Applying to multidimensional strings")
print(tf.strings.unicode_script(batch_chars_ragged))

代码来源:https://tensorflowcn.cn/tutorials/load_data/unicode

输出

The below represent '芸' and 'Б' respectively
[17   8]
Applying to multidimensional strings
<tf.RaggedTensor [[25, 25, 25, 25, 25], [25, 25, 25, 25, 0, 25, 25, 0, 25, 25, 25, 0, 25, 25, 25, 25, 25, 25, 25, 0, 25, 25, 25, 25, 25, 25, 25, 25], [25, 25, 25, 25, 25, 25, 25, 25, 25], [0]]>

解释

  • 每个 Unicode 码位都属于一个唯一的码位集合,称为脚本。
  • 字符的脚本有助于确定该字符可能所属的语言。
  • TensorFlow 提供 tf.strings.unicode_script 操作来查找给定码位将使用哪个脚本。
  • 脚本代码是 int32 值,映射到 Unicode 国际组件 (ICU) 的 UScriptCode 值。
  • tf.strings.unicode_script 操作也可以应用于多维 tf.Tensors 或 tf.RaggedTensors 码位。

更新于: 2021年2月20日

91 次查看

开启您的 职业生涯

完成课程获得认证

立即开始
广告