Beautiful Soup - decode() 方法

方法描述

Beautiful Soup 中的 decode() 方法返回解析树的字符串或 Unicode 表示形式，作为 HTML 或 XML 文档。该方法使用为编码注册的编解码器解码字节。其功能与 encode() 方法相反。调用 encode() 获取字节串，调用 decode() 获取 Unicode。让我们通过一些例子来学习 decode() 方法。

语法

decode(pretty_print, encoding, formatter, errors)

参数

pretty_print − 如果为 True，将使用缩进使文档更易读。
encoding − 最终文档的编码。如果为 None，则文档将是 Unicode 字符串。
formatter − Formatter 对象，或命名其中一个标准格式化程序的字符串。
errors − 用于处理解码错误的错误处理方案。值为 'strict'、'ignore' 和 'replace'。

返回值

decode() 方法返回一个 Unicode 字符串。

示例

from bs4 import BeautifulSoup

soup = BeautifulSoup("Hello “World!”", 'html.parser')
enc = soup.encode('utf-8')
print (enc)
dec = enc.decode()
print (dec)

输出

b'Hello \xe2\x80\x9cWorld!\xe2\x80\x9d'
Hello "World!"

打印页面