Beautiful Soup - encode() 方法

方法描述

Beautiful Soup 中的 encode() 方法会呈现给定 PageElement 及其内容的字节字符串表示形式。

prettify() 方法允许您轻松地可视化 Beautiful Soup 解析树的结构，它具有 encoding 参数。encode() 方法的作用与 prettify() 方法中的 encoding 参数相同。

语法

encode(encoding, indent_level, formatter, errors)

参数

encoding − 目标编码。
indent_level − 渲染的每一行将
缩进这么多级。在美化打印时的递归调用中内部使用。
formatter − Formatter 对象，或一个字符串，表示标准格式化程序之一。
errors − 错误处理策略。

返回值

encode() 方法返回标签及其内容的字节字符串表示形式。

示例 1

默认情况下，encoding 参数为 utf-8。以下代码显示了 soup 对象的编码字节字符串表示形式。

from bs4 import BeautifulSoup

soup = BeautifulSoup("Hello “World!”", 'html.parser')
print (soup.encode('utf-8'))

输出

b'Hello \xe2\x80\x9cWorld!\xe2\x80\x9d'

示例 2

formatter 对象具有以下预定义值：

formatter="minimal" − 这是默认值。字符串只会经过足够的处理，以确保 Beautiful Soup 生成有效的 HTML/XML。

formatter="html" − Beautiful Soup 会尽可能将 Unicode 字符转换为 HTML 实体。

formatter="html5" − 与 formatter="html" 类似，但 Beautiful Soup 会省略 HTML 空标签（如 "br"）中的结束斜杠。

formatter=None − Beautiful Soup 根本不会修改输出中的字符串。这是最快的选项，但可能会导致 Beautiful Soup 生成无效的 HTML/XML。

在以下示例中，不同的 formatter 值用作 encode() 方法的参数。

from bs4 import BeautifulSoup

french = "<p>Il a dit <<Sacré bleu!>></p>"
soup = BeautifulSoup(french, 'html.parser')
print ("minimal: ")
print(soup.p.encode(formatter="minimal"))
print ("html: ")
print(soup.p.encode(formatter="html"))
print ("None: ")
print(soup.p.encode(formatter=None))

输出

minimal: 
b'<p>Il a dit <<Sacr\xc3\xa9 bleu!>></p>'
html:
b'<p>Il a dit <<Sacré bleu!>></p>'
None:
b'<p>Il a dit <<Sacr\xc3\xa9 bleu!>></p>'

示例 3

以下示例使用 Latin-1 作为 encoding 参数。

markup = '''
<html>
   <head>
      <meta content="text/html; charset=ISO-Latin-1" http-equiv="Content-type" />
   </head>
   <body>
      <p>Sacr`e bleu!</p>
   </body>
</html>
'''
from bs4 import BeautifulSoup

soup = BeautifulSoup(markup, 'lxml')
print(soup.p.encode("latin-1"))

输出

b'<p>Sacr`e bleu!</p>'

打印页面