Beautiful Soup - 检查数据源



为了使用 BeautifulSoup 和 Python 抓取网页,任何网页抓取项目的首要步骤都应该是探索您想要抓取的网站。因此,在开始提取与您相关的 信息之前,首先访问该网站以了解网站结构。

让我们访问 TutorialsPoint 的 Python 教程主页。在浏览器中打开 https://tutorialspoint.com/python3/index.htm

使用开发者工具可以帮助您了解网站的结构。所有现代浏览器都安装了开发者工具。

如果使用 Chrome 浏览器,请从右上角菜单按钮 (⋮) 打开开发者工具,然后选择更多工具 → 开发者工具。

Developer Tools

使用开发者工具,您可以探索站点的文档对象模型 (DOM) 以更好地理解您的源代码。在开发者工具中选择“元素”选项卡。您将看到一个带有可点击 HTML 元素的结构。

教程页面在左侧边栏中显示了目录。右键单击任意章节,然后选择“检查”选项。

tutorial_page

对于“元素”选项卡,找到与 TOC 列表对应的标签,如下图所示 -

TOC_list

右键单击 HTML 元素,复制 HTML 元素,并将其粘贴到任何编辑器中。

html element

<ul>..</ul> 元素的 HTML 脚本现已获得。

<ul class="toc chapters">
   <li class="heading">Python 3 Basic Tutorial</li>
   <li class="current-chapter"><a href="/python3/index.htm">Python 3 - Home</a></li>
   <li><a href="/python3/python3_whatisnew.htm">What is New in Python 3</a></li>
   <li><a href="/python3/python_overview.htm">Python 3 - Overview</a></li>
   <li><a href="/python3/python_environment.htm">Python 3 - Environment Setup</a></li>
   <li><a href="/python3/python_basic_syntax.htm">Python 3 - Basic Syntax</a></li>
   <li><a href="/python3/python_variable_types.htm">Python 3 - Variable Types</a></li>
   <li><a href="/python3/python_basic_operators.htm">Python 3 - Basic Operators</a></li>
   <li><a href="/python3/python_decision_making.htm">Python 3 - Decision Making</a></li>
   <li><a href="/python3/python_loops.htm">Python 3 - Loops</a></li>
   <li><a href="/python3/python_numbers.htm">Python 3 - Numbers</a></li>
   <li><a href="/python3/python_strings.htm">Python 3 - Strings</a></li>
   <li><a href="/python3/python_lists.htm">Python 3 - Lists</a></li>
   <li><a href="/python3/python_tuples.htm">Python 3 - Tuples</a></li>
   <li><a href="/python3/python_dictionary.htm">Python 3 - Dictionary</a></li>
   <li><a href="/python3/python_date_time.htm">Python 3 - Date & Time</a></li>
   <li><a href="/python3/python_functions.htm">Python 3 - Functions</a></li>
   <li><a href="/python3/python_modules.htm">Python 3 - Modules</a></li>
   <li><a href="/python3/python_files_io.htm">Python 3 - Files I/O</a></li>
   <li><a href="/python3/python_exceptions.htm">Python 3 - Exceptions</a></li>
</ul>

我们现在可以将此脚本加载到 BeautifulSoup 对象中以解析文档树。

广告

© . All rights reserved.