如何在 Python 中使用 BeautifulSoup 包提取网站域名?
BeautifulSoup 是一个用于解析网页数据的第三方 Python 库。它有助于网页抓取,网页抓取是从不同资源中提取、使用和操作数据的过程。此外,它还有助于开发人员进行自然语言处理应用,帮助分析数据并从中提取有意义的见解。
自然语言处理或 NLP 是机器学习的一部分,它处理文本数据以及对其进行预处理以将其作为机器学习问题的输入的方法。
网页抓取也可用于提取数据以进行研究目的、了解/比较市场趋势、执行 SEO 监控等。
以下代码行可以在 Windows 上运行以安装 BeautifulSoup:
示例
pip install beautifulsoup4
import requests
from bs4 import BeautifulSoup
from urllib.request import urlopen
import urllib
url = 'https://en.wikipedia.org/wiki/Algorithm'
parsed_uri = urllib.request.urlparse(url)
domainName = '{uri.scheme}://{uri.netloc}/'.format(uri=parsed_uri)
print("The domain name is : ")
print(domainName)输出
The domain name is : https://en.wikipedia.org/
解释
导入并为所需的包设置别名。
定义网站。
使用“netloc”和“scheme”函数确定域名。
调用“urlparse”函数以获取域名。
在控制台上打印域名。
广告
数据结构
网络
关系型数据库管理系统
操作系统
Java
iOS
HTML
CSS
Android
Python
C 编程
C++
C#
MongoDB
MySQL
Javascript
PHP