Beautiful Soup - 概述



在当今世界,我们拥有大量的非结构化数据/信息(主要是网页数据)可免费获取。有时这些免费数据易于阅读,有时则不然。无论您的数据如何呈现,网页抓取都是将非结构化数据转换为易于阅读和分析的结构化数据非常有用的工具。换句话说,网页抓取是一种收集、组织和分析海量数据的方法。那么,让我们首先了解什么是网页抓取。

Beautiful Soup 简介

Beautiful Soup 是一个 Python 库,其名称源于刘易斯·卡罗尔在《爱丽丝梦游仙境》中同名诗歌。Beautiful Soup 是一个 Python 包,顾名思义,它解析不需要的数据,并通过修复错误的 HTML 并以易于遍历的 XML 结构呈现给我们,从而帮助组织和格式化混乱的网页数据。

简而言之,Beautiful Soup 是一个 Python 包,允许我们从 HTML 和 XML 文档中提取数据。

HTML 树结构

在深入了解 Beautiful Soup 提供的功能之前,让我们首先了解 HTML 树结构。

HTML tree structure

文档树中的根元素是 html,它可以有父节点、子节点和兄弟节点,这由它在树结构中的位置决定。要在 HTML 元素、属性和文本之间移动,您必须在树结构中的节点之间移动。

让我们假设网页如下所示:

webpage

这转换为如下所示的 html 文档:

<html>
   <head>
      <title>TutorialsPoint</title>
   </head>
   <body>
      <h1>Tutorialspoint Online Library</h1>
      <p><b>It's all Free</b></p>
   </body>
</html>

这仅仅意味着,对于上面的 html 文档,我们有如下所示的 html 树结构:

Html Tree Structure
广告
© . All rights reserved.