在 TensorFlow 和 Python 中,什么是 Unicode 脚本?
每个 Unicode 码位都属于一个唯一的码位集合,称为脚本。字符的脚本决定了该字符所属的语言。TensorFlow 带有“strings.unicode_script”方法,可以帮助查找给定码位将使用哪个脚本。脚本代码是 int32 值,可以映射到 Unicode 国际组件 (ICU) 的 UScriptCode 值。
阅读更多: 什么是 TensorFlow 以及 Keras 如何与 TensorFlow 协作创建神经网络?
我们将了解如何使用 Python 表示 Unicode 字符串,以及如何使用 Unicode 等价物来操作它们。首先,在脚本检测的帮助下,根据脚本检测将 Unicode 字符串分成标记,并借助标准字符串操作的 Unicode 等价物。
我们正在使用 Google Colaboratory 来运行以下代码。Google Colab 或 Colaboratory 帮助在浏览器上运行 Python 代码,无需任何配置,并且可以免费访问 GPU(图形处理单元)。Colaboratory 建立在 Jupyter Notebook 之上。
print("The below represent '芸' and 'Б' respectively") uscript = tf.strings.unicode_script([33464, 1041]) print(uscript.numpy()) # [17, 8] == [USCRIPT_HAN, USCRIPT_CYRILLIC] print("Applying to multidimensional strings") print(tf.strings.unicode_script(batch_chars_ragged))
代码来源:https://tensorflowcn.cn/tutorials/load_data/unicode
输出
The below represent '芸' and 'Б' respectively [17 8] Applying to multidimensional strings <tf.RaggedTensor [[25, 25, 25, 25, 25], [25, 25, 25, 25, 0, 25, 25, 0, 25, 25, 25, 0, 25, 25, 25, 25, 25, 25, 25, 0, 25, 25, 25, 25, 25, 25, 25, 25], [25, 25, 25, 25, 25, 25, 25, 25, 25], [0]]>
解释
- 每个 Unicode 码位都属于一个唯一的码位集合,称为脚本。
- 字符的脚本有助于确定该字符可能所属的语言。
- TensorFlow 提供 tf.strings.unicode_script 操作来查找给定码位将使用哪个脚本。
- 脚本代码是 int32 值,映射到 Unicode 国际组件 (ICU) 的 UScriptCode 值。
- tf.strings.unicode_script 操作也可以应用于多维 tf.Tensors 或 tf.RaggedTensors 码位。
广告