如何使用BeautifulSoup从网站提取“href”链接?
BeautifulSoup是一个用于从网页解析数据的第三方Python库。它有助于进行网页抓取,这是一个从不同资源提取、使用和操作数据的过程。
网页抓取也可用于提取数据以进行研究、了解/比较市场趋势、执行SEO监控等等。
以下命令可在Windows上安装BeautifulSoup:
pip install beautifulsoup4
以下是一个示例:
示例
from bs4 import BeautifulSoup import requests url = "https://en.wikipedia.org/wiki/Algorithm" req = requests.get(url) soup = BeautifulSoup(req.text, "html.parser") print("The href links are :") for link in soup.find_all('a'): print(link.get('href'))
输出
The href links are : … https://stats.wikimedia.org/#/en.wikipedia.org https://foundation.wikimedia.org/wiki/Cookie_statement https://wikimediafoundation.org/ https://www.mediawiki.org/
解释
导入并为所需的包设置别名。
定义网站。
打开URL并从中读取数据。
使用“BeautifulSoup”函数从网页提取文本。
使用“find_all”函数从网页数据中提取文本。
在控制台中打印href链接。
广告