如何使用BeautifulSoup从网站提取“href”链接?


BeautifulSoup是一个用于从网页解析数据的第三方Python库。它有助于进行网页抓取,这是一个从不同资源提取、使用和操作数据的过程。

网页抓取也可用于提取数据以进行研究、了解/比较市场趋势、执行SEO监控等等。

以下命令可在Windows上安装BeautifulSoup:

pip install beautifulsoup4

以下是一个示例:

示例

from bs4 import BeautifulSoup
import requests
url = "https://en.wikipedia.org/wiki/Algorithm"
req = requests.get(url)
soup = BeautifulSoup(req.text, "html.parser")
print("The href links are :")
for link in soup.find_all('a'):
   print(link.get('href'))

输出

The href links are :
…
https://stats.wikimedia.org/#/en.wikipedia.org
https://foundation.wikimedia.org/wiki/Cookie_statement
https://wikimediafoundation.org/
https://www.mediawiki.org/

解释

  • 导入并为所需的包设置别名。

  • 定义网站。

  • 打开URL并从中读取数据。

  • 使用“BeautifulSoup”函数从网页提取文本。

  • 使用“find_all”函数从网页数据中提取文本。

  • 在控制台中打印href链接。

更新于:2021年1月18日

12K+ 浏览量

启动你的职业生涯

完成课程获得认证

开始学习
广告