Python Unicode 数据库


unicodedata 模块用于通过 Unicode 字符数据库访问所有 Unicode 字符。在此数据库中,包含所有字符的字符属性。

要使用此模块,我们需要在代码中导入 **unicodedata** 模块。

import unicodedata

Unicode 数据库方法

这里描述了 unicodedata 模块的一些方法。

方法 (unicodedata.lookup(name)) −

此方法用于按名称查找字符。当名称有效时,它应该返回该字符。否则,它将引发 KeyError。

方法 (unicodedata.name(chr[, default]))−

此方法用于将给定字符的名称作为字符串返回。如果给出了默认值,则当字符不在数据库中时,它可能会返回默认值,否则它将引发 ValueError。

方法 (unicodedata.digit(chr[, default])) −

此方法用于返回给定字符的整数数字。如果给出了默认值,则当字符不存在或在数据库中格式不正确时,它可能会返回默认值,否则它将引发 ValueError。

方法 (unicodedata.category(chr)) −

此方法用于返回分配给字符的通用类别。例如,对于字母,它将返回“L”,对于大写字母,它将返回“u”,对于左括号,它将返回 Ps(标点开始)等。

方法 (unicodedata.mirrored(chr))−

此方法用于检查字符是否有镜像字符。一些字符有镜像字符,例如“(”和“)”等。当它与镜像字符匹配时,它将返回 1,否则返回 0。

示例代码

import unicodedata as ud
print(ud.lookup('ASTERISK'))
print(ud.lookup('Latin Capital letter G'))

#The Unicode name from the characters
print(ud.name(u'x'))
print(ud.name(u'°'))

#The Unicode character to decimal and numerics
print(ud.decimal(u'6'))
print(ud.numeric(u'9'))

#The Unicode character categoty
print(ud.category(u'A'))
print(ud.category(u'9'))
print(ud.category(u'[')) #Punctuation Start

#Unicode character to check whether mirrored or not
print(ud.mirrored(u'A'))
print(ud.mirrored(u'<'))

输出

*
G
LATIN SMALL LETTER X
DEGREE SIGN
6
9.0
Lu
Nd
Ps
0
1

更新于: 2019年7月30日

381 次浏览

开启你的 职业生涯

通过完成课程获得认证

立即开始
广告