Python Unicode 数据库
unicodedata 模块用于通过 Unicode 字符数据库访问所有 Unicode 字符。在此数据库中,包含所有字符的字符属性。
要使用此模块,我们需要在代码中导入 **unicodedata** 模块。
import unicodedata
Unicode 数据库方法
这里描述了 unicodedata 模块的一些方法。
方法 (unicodedata.lookup(name)) −
此方法用于按名称查找字符。当名称有效时,它应该返回该字符。否则,它将引发 KeyError。
方法 (unicodedata.name(chr[, default]))−
此方法用于将给定字符的名称作为字符串返回。如果给出了默认值,则当字符不在数据库中时,它可能会返回默认值,否则它将引发 ValueError。
方法 (unicodedata.digit(chr[, default])) −
此方法用于返回给定字符的整数数字。如果给出了默认值,则当字符不存在或在数据库中格式不正确时,它可能会返回默认值,否则它将引发 ValueError。
方法 (unicodedata.category(chr)) −
此方法用于返回分配给字符的通用类别。例如,对于字母,它将返回“L”,对于大写字母,它将返回“u”,对于左括号,它将返回 Ps(标点开始)等。
方法 (unicodedata.mirrored(chr))−
此方法用于检查字符是否有镜像字符。一些字符有镜像字符,例如“(”和“)”等。当它与镜像字符匹配时,它将返回 1,否则返回 0。
示例代码
import unicodedata as ud print(ud.lookup('ASTERISK')) print(ud.lookup('Latin Capital letter G')) #The Unicode name from the characters print(ud.name(u'x')) print(ud.name(u'°')) #The Unicode character to decimal and numerics print(ud.decimal(u'6')) print(ud.numeric(u'9')) #The Unicode character categoty print(ud.category(u'A')) print(ud.category(u'9')) print(ud.category(u'[')) #Punctuation Start #Unicode character to check whether mirrored or not print(ud.mirrored(u'A')) print(ud.mirrored(u'<'))
输出
* G LATIN SMALL LETTER X DEGREE SIGN 6 9.0 Lu Nd Ps 0 1
广告