如何使用BeautifulSoup从网站提取“href”链接?
BeautifulSoup是一个用于从网页解析数据的第三方Python库。它有助于进行网页抓取,这是一个从不同资源提取、使用和操作数据的过程。
网页抓取也可用于提取数据以进行研究、了解/比较市场趋势、执行SEO监控等等。
以下命令可在Windows上安装BeautifulSoup:
pip install beautifulsoup4
以下是一个示例:
示例
from bs4 import BeautifulSoup
import requests
url = "https://en.wikipedia.org/wiki/Algorithm"
req = requests.get(url)
soup = BeautifulSoup(req.text, "html.parser")
print("The href links are :")
for link in soup.find_all('a'):
print(link.get('href'))输出
The href links are : … https://stats.wikimedia.org/#/en.wikipedia.org https://foundation.wikimedia.org/wiki/Cookie_statement https://wikimediafoundation.org/ https://www.mediawiki.org/
解释
导入并为所需的包设置别名。
定义网站。
打开URL并从中读取数据。
使用“BeautifulSoup”函数从网页提取文本。
使用“find_all”函数从网页数据中提取文本。
在控制台中打印href链接。
广告
数据结构
网络
关系数据库管理系统 (RDBMS)
操作系统
Java
iOS
HTML
CSS
Android
Python
C语言编程
C++
C#
MongoDB
MySQL
Javascript
PHP