Beautiful Soup - decode() 方法



方法描述

Beautiful Soup 中的 decode() 方法返回解析树的字符串或 Unicode 表示形式,作为 HTML 或 XML 文档。该方法使用为编码注册的编解码器解码字节。其功能与 encode() 方法相反。调用 encode() 获取字节串,调用 decode() 获取 Unicode。让我们通过一些例子来学习 decode() 方法。

语法

decode(pretty_print, encoding, formatter, errors)

参数

  • pretty_print − 如果为 True,将使用缩进使文档更易读。

  • encoding − 最终文档的编码。如果为 None,则文档将是 Unicode 字符串。

  • formatter − Formatter 对象,或命名其中一个标准格式化程序的字符串。

  • errors − 用于处理解码错误的错误处理方案。值为 'strict'、'ignore' 和 'replace'。

返回值

decode() 方法返回一个 Unicode 字符串。

示例

from bs4 import BeautifulSoup

soup = BeautifulSoup("Hello “World!”", 'html.parser')
enc = soup.encode('utf-8')
print (enc)
dec = enc.decode()
print (dec)

输出

b'Hello \xe2\x80\x9cWorld!\xe2\x80\x9d'
Hello "World!"
广告
© . All rights reserved.