Python - Unicode 系统

什么是 Unicode 系统？

软件应用程序通常需要显示各种不同语言的消息输出，例如英语、法语、日语、希伯来语或印地语。Python 的字符串类型使用 Unicode 标准来表示字符。这使得程序能够处理所有这些不同的可能字符。

字符是文本中最小的组成部分。“A”、“B”、“C”等都是不同的字符。“È”和“Í”也是如此。Unicode 字符串是一系列代码点，代码点是从 0 到 0x10FFFF（十进制 1,114,111）的数字。这串代码点需要在内存中表示为一组代码单元，然后代码单元映射到 8 位字节。

一系列代码点在内存中表示为一组代码单元，映射到 8 位字节。将 Unicode 字符串转换为字节序列的规则称为字符编码。

存在三种类型的编码：UTF-8、UTF-16 和 UTF-32。UTF 代表 **Unicode 转换格式**。

从 Python 3.0 开始，内置支持 Unicode。**str** 类型包含 Unicode 字符，因此使用单引号、双引号或三引号字符串语法创建的任何字符串都存储为 Unicode。Python 源代码的默认编码为 UTF-8。

因此，字符串可能包含 Unicode 字符的文字表示（3/4）或其 Unicode 值（\u00BE）。

var = "3/4"
print (var)
var = "\u00BE"
print (var)

以上代码将产生以下 **输出** -

3/4
¾

在以下示例中，字符串“10”使用 1 和 0 的 Unicode 值存储，它们分别是 \u0031 和 u0030。

var = "\u0031\u0030"
print (var)

它将产生以下 **输出** -

字符串以人类可读的格式显示文本，而字节以二进制数据存储字符。编码将数据从字符字符串转换为一系列字节。解码将字节转换回人类可读的字符和符号。重要的是不要

混淆这两种方法。encode 是字符串方法，而 decode 是 Python 字节对象的的方法。

在以下示例中，我们有一个字符串变量，其中包含 ASCII 字符。ASCII 是 Unicode 字符集的子集。encode() 方法用于将其转换为字节对象。

string = "Hello"
tobytes = string.encode('utf-8')
print (tobytes)
string = tobytes.decode('utf-8')
print (string)

decode() 方法将字节对象转换回 str 对象。使用的编码方法是 utf-8。

b'Hello'
Hello

在以下示例中，卢比符号（₹）使用其 Unicode 值存储在变量中。我们将字符串转换为字节，然后转换回 str。

string = "\u20B9"
print (string)
tobytes = string.encode('utf-8')
print (tobytes)
string = tobytes.decode('utf-8')
print (string)

执行上述代码时，将产生以下 **输出** -

₹
b'\xe2\x82\xb9'
₹

打印页面