使用 Python 解析和转换 HTML 文档到 XML 格式

介绍

将 HTML 文件解析并转换为 XML 格式是 Web 开发和数据处理领域经常出现的常规活动。与 XML（一种灵活的标记语言，使数据共享和存储更容易）相比，HTML（超文本标记语言）是用于构建和呈现 Web 上信息的行业标准语言。数据提取、数据转换和系统兼容性只是将 HTML 转换为 XML 可能有利的几个用途。

解析和转换 HTML 到 XML 的重要性

使用 Python 解析和转换 HTML 到 XML 至关重要的原因有很多：

数据提取：HTML 文档通常包含嵌入在标记中的有价值数据。通过将 HTML 转换为 XML，我们可以使用 XML 解析技术更有效地提取特定数据元素和属性。
数据转换：XML 提供了灵活的扩展结构，可以更好地进行数据转换和操作。通过将 HTML 转换为 XML，我们可以执行各种数据转换操作以获得所需的数据格式或结构，例如过滤、重新排序和合并。
XML 通常用作不同系统和平台之间数据交换的标准。
数据验证和校验：为了验证数据的完整性和对预定标准的遵守情况，可以针对 XML 模式或文档类型定义 (DTD) 来测试 XML 文档。通过将 HTML 转换为 XML，我们可以根据预设标准检查数据，从而确保数据的准确性和一致性。
面向未来：HTML 会随着时间的推移而发生变化和更新，而 XML 提供了更稳定和标准化的格式。将 HTML 转换为 XML 使我们能够通过将其转换为更能抵抗 HTML 版本更改和不断发展的 Web 标准的格式来保护我们的数据。

使用 Python 解析 HTML

HTML 解析基础

HTML 解析需要检查 HTML 文档的结构，以便提取必要的文本、属性和数据组件。Python 中的内置库（如 html.parser 和 xml.etree.ElementTree）提供了基本的 HTML 解析功能。这些库使我们能够在 HTML 文档的组件之间导航，检索它们的属性，并根据预定标准执行操作。但是，它们可能无法提供诸如自动标签平衡或错误处理之类的先进功能，并且它们处理复杂 HTML 结构的能力可能有限。

使用 BeautifulSoup 解析 HTML

流行的 Python 第三方包 BeautifulSoup 简化了 HTML 导航和处理。它提供了一个实用且简单的 API，可以使用不同的搜索和过滤技术查找 HTML 组件。BeautifulSoup 支持多种解析器，包括 html.parser、lxml 和 html5lib，使用户可以自由选择最适合任何特定情况的解析器。由于其强大的功能（包括自动标签平衡和错误处理），它是解析各种复杂程度的 HTML 文本的绝佳选择。

通过执行 pip install beautifulsoup4，我们可以安装库并开始解析 HTML。安装后，我们导入 BeautifulSoup 模块并使用它将 HTML 文本转换为 BeautifulSoup 对象。然后，使用 BeautifulSoup 的方法和属性，我们可以通过访问元素、属性或文本遍历和提取数据。

使用 lxml 解析 HTML

lxml 是另一个高效且强大的 Python 包，用于处理 HTML 和 XML 文档。它结合了 libxml2 和 libxslt 库的优点，提供了一种快速且功能丰富的解析方法。LXML 提供了一整套工具，用于浏览、修改和从结构化文档中提取数据，并支持 HTML 和 XML 处理。

将 HTML 转换为 XML

创建 XML 结构

在将 HTML 转换为 XML 之前，了解 XML 的基本结构和语法至关重要。XML 由包含在标签内的组件组成，这些组件可能具有属性并包含嵌套组件。每个 XML 文件都有一个根元素，它充当所有其他元素的容器。

为了将 HTML 转换为 XML，我们必须将 HTML 元素映射到 XML 元素，同时确保结构和内容得到正确反映。为了生成 XML 元素、设置属性和构建 XML 树结构，我们可以使用 Python 的 XML 库，例如 xml.etree.ElementTree 或 lxml.etree。

使用 BeautifulSoup 将 HTML 转换为 XML

使用 BeautifulSoup，我们可以利用其 HTML 解析功能，然后从解析的 HTML 文档生成 XML 结构。我们遍历表示 HTML 的 BeautifulSoup 对象，使用 BeautifulSoup.new_tag() 方法创建 XML 元素，分配属性，并根据所需的 XML 结构组织元素。最后，我们可以使用 prettify() 方法获得格式良好的 XML 输出。

使用 lxml 将 HTML 转换为 XML

使用 lxml，转换过程类似于 BeautifulSoup。我们使用 lxml.html 解析 HTML 文档，然后使用 lxml.etree.ElementTree 创建 XML 树结构。我们迭代解析的 HTML 元素，创建相应的 XML 元素，设置属性并构建 XML 树。最后，我们可以使用 lxml.etree.tostring() 方法将 XML 树序列化为字符串表示形式。

处理复杂的 HTML 结构

处理嵌套元素

当 HTML 标签相互嵌套形成分层结构时，就会出现嵌套元素。为了在解析和转换过程中处理嵌套元素，我们需要递归遍历 HTML 文档并创建相应的嵌套 XML 元素。通过正确映射 HTML 标签和 XML 元素之间的关系，我们在转换过程中保持结构的完整性。

处理属性

HTML 标签通常具有提供附加信息或属性的属性。将 HTML 转换为 XML 时，我们需要将这些属性转移到 XML 元素。像 BeautifulSoup 和 lxml 这样的 Python 库提供了访问和从 HTML 元素中提取属性的方法。通过将这些属性分配给 XML 元素，我们在转换过程中保留了相关元数据。

解决 HTML 中的不规则性

HTML 文档可能包含不规则性，例如未关闭的标签、缺少的属性或格式错误的结构。这些不规则性在解析和转换过程中可能带来挑战。像 BeautifulSoup 和 lxml 这样的 Python 库通过采用宽松的解析技术来处理此类不规则性。它们会自动平衡标签、纠正缺少的属性并规范化结构，以确保有效的 XML 输出。

示例

from bs4 import BeautifulSoup import 
requests 
 
# Function to parse HTML and convert it to XML 
def html_to_xml(html_content):     
   # Parse HTML using BeautifulSoup     
   soup = BeautifulSoup(html_content, 'html.parser') 
     

   # Create an XML root element     
   root = soup.new_tag('root') 
     
    # Recursively convert HTML elements to XML elements     
    def convert(element, parent): 
       xml_element = soup.new_tag(element.name) 
         
       # Convert attributes to XML attributes         
       for attr, value in element.attrs.items(): 
          xml_element[attr] = value 
         
       # Convert nested elements         
       for child in element.children:             
           if child.name: 
              convert(child, xml_element)          
           else: 
              xml_element.string = str(child) 
         
        parent.append(xml_element) 
     
   # Convert top-level HTML elements     
   for element in soup.children:         
      if element.name: 
         convert(element, root) 
     
    # Create an XML document     
    xml_document = soup.new_tag('xml')     
    xml_document.append(root) 
     
    return xml_document.prettify() 
 
 
# Example usage
 
url = "https://example.com"  # Replace with your desired URL 
response = requests.get(url) 
html_content = response.content 
 
xml_output = html_to_xml(html_content) 
print(xml_output)

输出

<xml> 
 <root> 
  <html> 
  </html> 
 </root> 
</xml> 
</pre>

结论

通过阅读本文，读者将全面掌握解析 HTML 页面、将其转换为 XML 格式以及使用 Python 库的功能来处理各种情况和挑战。有了这种理解，开发人员将能够有效地处理 HTML 内容、提取有用的数据并确保与基于 XML 的系统的兼容性。因此，让我们探索基于 Python 的 HTML 解析和 XML 转换的精彩世界吧！

Premansh Sharma

更新于：2023年7月25日

849 次查看

启动您的职业生涯

完成课程获得认证

开始学习