使用 Python 和 Requests 库开发 Web 爬虫

从新闻文章和电子商务平台到社交媒体更新和博客文章，网络是宝贵数据的宝库。但是，手动浏览无数网页以收集这些信息是一项耗时且乏味的任务。这就是 Web 爬虫发挥作用的地方。

什么是 Web 爬虫？

Web 爬虫，也称为 Web 抓取，是一种用于系统地浏览和提取网站数据的技术。它涉及编写一个脚本或程序，该脚本或程序会自动访问网页、跟踪链接并收集相关数据以供进一步分析。此过程对于各种应用程序至关重要，例如 Web 索引、数据挖掘和内容聚合。

Python 以其简单性和多功能性，已成为 Web 爬虫任务中最流行的编程语言之一。其丰富的库和框架生态系统为开发人员提供了强大的工具来构建高效且健壮的 Web 爬虫。Requests 库就是这样一个库。

Python Requests 库

Requests 库是一个广泛使用的 Python 库，它简化了发送 HTTP 请求和与网页交互的过程。它提供了一个直观的界面，用于向 Web 服务器发出请求并处理响应。

只需几行代码，您就可以检索 Web 内容、提取数据并在检索到的信息上执行各种操作。

入门

首先，让我们确保已安装 Requests 库。我们可以使用 Python 包管理器 pip 轻松安装它。

打开您的终端或命令提示符并输入以下命令

pip install requests

安装了 Requests 库后，我们就可以深入主要内容并开始开发我们的 Web 爬虫了。

步骤 1：导入所需的库

首先，我们需要导入 Requests 库，这将使我们能够发送 HTTP 请求并检索网页数据。我们还将导入其他必要的库以进行数据处理和解析。

import requests
from bs4 import BeautifulSoup

步骤 2：发送 GET 请求

Web 爬虫的第一步是向网页发送 GET 请求。我们可以使用 Requests 库的 get() 函数来检索网页的 HTML 内容。

url = "https://example.com"
response = requests.get(url)

步骤 3：解析 HTML 内容

获得 HTML 内容后，我们需要对其进行解析以提取相关信息。BeautifulSoup 库提供了一种方便的方法来解析 HTML 并浏览其元素。

soup = BeautifulSoup(response.text, "html.parser")

步骤 4：提取数据

使用解析后的 HTML，我们现在可以提取所需的数据。这可能涉及定位特定元素、提取文本、检索属性值等等。

# Find all <a> tags
links = soup.find_all("a")

# Extract href attribute values
for link in links:
    href = link.get("href")
    print(href)

步骤 5：爬取多个页面

在许多情况下，我们希望我们的 Web 爬虫通过跟踪链接浏览多个页面。我们可以通过迭代提取的链接并对每个页面重复该过程来实现此目的。

for link in links:
    href = link.get("href")
    if href.startswith("http"):
        response = requests.get(href)
        # Continue processing the page

示例

这是一个简单的 Web 爬虫示例，它提取并打印网页中的所有“href”属性值。该代码演示了 Python、Requests 库和 BeautifulSoup 的无缝集成，以开发功能性 Web 爬虫。通过修改代码并应用其他技术，您可以自定义 Web 爬虫以满足您的特定需求。

import requests
from bs4 import BeautifulSoup

url = "https://example.com"
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")

links = soup.find_all("a")

for link in links:
    href = link.get("href")
    print(href)

它将产生以下输出

/
/contact
/about

结论

总之，使用 Python 和 Requests 库进行 Web 爬虫使您能够探索互联网的广阔世界并提取有价值的数据。通过自动化浏览网页、跟踪链接和提取信息的过程，Web 爬虫节省了数据收集和分析任务的时间和精力。但是，务必注意网站服务条款、尊重网站政策并避免向服务器发送过多的请求。

S Vijay Balaji

更新于： 2023年8月31日

188 次查看

开启您的职业生涯

通过完成课程获得认证

开始学习