- Python 基础
- Python - 首页
- Python - 概览
- Python - 历史
- Python - 特性
- Python vs C++
- Python - Hello World 程序
- Python - 应用领域
- Python - 解释器
- Python - 环境设置
- Python - 虚拟环境
- Python - 基本语法
- Python - 变量
- Python - 数据类型
- Python - 类型转换
- Python - Unicode 系统
- Python - 字面量
- Python - 运算符
- Python - 算术运算符
- Python - 比较运算符
- Python - 赋值运算符
- Python - 逻辑运算符
- Python - 位运算符
- Python - 成员运算符
- Python - 身份运算符
- Python - 运算符优先级
- Python - 注释
- Python - 用户输入
- Python - 数字
- Python - 布尔值
- Python 控制语句
- Python - 控制流
- Python - 决策
- Python - if 语句
- Python - if else
- Python - 嵌套 if
- Python - Match-Case 语句
- Python - 循环
- Python - for 循环
- Python - for-else 循环
- Python - while 循环
- Python - break 语句
- Python - continue 语句
- Python - pass 语句
- Python - 嵌套循环
- Python 函数 & 模块
- Python - 函数
- Python - 默认参数
- Python - 关键字参数
- Python - 仅关键字参数
- Python - 位置参数
- Python - 仅位置参数
- Python - 可变参数
- Python - 变量作用域
- Python - 函数注解
- Python - 模块
- Python - 内置函数
- Python 字符串
- Python - 字符串
- Python - 字符串切片
- Python - 修改字符串
- Python - 字符串连接
- Python - 字符串格式化
- Python - 转义字符
- Python - 字符串方法
- Python - 字符串练习
- Python 列表
- Python - 列表
- Python - 访问列表项
- Python - 修改列表项
- Python - 添加列表项
- Python - 删除列表项
- Python - 循环遍历列表
- Python - 列表推导式
- Python - 排序列表
- Python - 复制列表
- Python - 合并列表
- Python - 列表方法
- Python - 列表练习
- Python 元组
- Python - 元组
- Python - 访问元组项
- Python - 更新元组
- Python - 解包元组
- Python - 循环遍历元组
- Python - 合并元组
- Python - 元组方法
- Python - 元组练习
- Python 集合
- Python - 集合
- Python - 访问集合项
- Python - 添加集合项
- Python - 删除集合项
- Python - 循环遍历集合
- Python - 合并集合
- Python - 复制集合
- Python - 集合运算符
- Python - 集合方法
- Python - 集合练习
- Python 字典
- Python - 字典
- Python - 访问字典项
- Python - 修改字典项
- Python - 添加字典项
- Python - 删除字典项
- Python - 字典视图对象
- Python - 循环遍历字典
- Python - 复制字典
- Python - 嵌套字典
- Python - 字典方法
- Python - 字典练习
- Python 数组
- Python - 数组
- Python - 访问数组项
- Python - 添加数组项
- Python - 删除数组项
- Python - 循环遍历数组
- Python - 复制数组
- Python - 反转数组
- Python - 排序数组
- Python - 合并数组
- Python - 数组方法
- Python - 数组练习
- Python 文件处理
- Python - 文件处理
- Python - 写入文件
- Python - 读取文件
- Python - 重命名和删除文件
- Python - 目录
- Python - 文件方法
- Python - OS 文件/目录方法
- Python - OS 路径方法
- 面向对象编程
- Python - OOPs 概念
- Python - 类 & 对象
- Python - 类属性
- Python - 类方法
- Python - 静态方法
- Python - 构造函数
- Python - 访问修饰符
- Python - 继承
- Python - 多态
- Python - 方法重写
- Python - 方法重载
- Python - 动态绑定
- Python - 动态类型
- Python - 抽象
- Python - 封装
- Python - 接口
- Python - 包
- Python - 内部类
- Python - 匿名类和对象
- Python - 单例类
- Python - 包装器类
- Python - 枚举
- Python - 反射
- Python 错误 & 异常
- Python - 语法错误
- Python - 异常
- Python - try-except 块
- Python - try-finally 块
- Python - 抛出异常
- Python - 异常链
- Python - 嵌套 try 块
- Python - 用户自定义异常
- Python - 日志记录
- Python - 断言
- Python - 内置异常
- Python 多线程
- Python - 多线程
- Python - 线程生命周期
- Python - 创建线程
- Python - 启动线程
- Python - 线程连接
- Python - 线程命名
- Python - 线程调度
- Python - 线程池
- Python - 主线程
- Python - 线程优先级
- Python - 守护线程
- Python - 线程同步
- Python 同步
- Python - 线程间通信
- Python - 线程死锁
- Python - 中断线程
- Python 网络
- Python - 网络
- Python - 套接字编程
- Python - URL 处理
- Python - 泛型
- Python 库
- NumPy 教程
- Pandas 教程
- SciPy 教程
- Matplotlib 教程
- Django 教程
- OpenCV 教程
- Python 其他
- Python - 日期 & 时间
- Python - 数学
- Python - 迭代器
- Python - 生成器
- Python - 闭包
- Python - 装饰器
- Python - 递归
- Python - 正则表达式
- Python - PIP
- Python - 数据库访问
- Python - 弱引用
- Python - 序列化
- Python - 模板
- Python - 输出格式化
- Python - 性能测量
- Python - 数据压缩
- Python - CGI 编程
- Python - XML 处理
- Python - GUI 编程
- Python - 命令行参数
- Python - 文档字符串
- Python - JSON
- Python - 发送邮件
- Python - 扩展
- Python - 工具/实用程序
- Python - GUIs
- Python 高级概念
- Python - 抽象基类
- Python - 自定义异常
- Python - 高阶函数
- Python - 对象内部
- Python - 内存管理
- Python - 元类
- Python - 使用元类进行元编程
- Python - 模拟和存根
- Python - 猴子补丁
- Python - 信号处理
- Python - 类型提示
- Python - 自动化教程
- Python - Humanize 包
- Python - 上下文管理器
- Python - 协程
- Python - 描述符
- Python - 诊断和修复内存泄漏
- Python - 不可变数据结构
- Python 有用资源
- Python - 问答
- Python - 在线测验
- Python - 快速指南
- Python - 参考
- Python - 速查表
- Python - 项目
- Python - 有用资源
- Python - 讨论
- Python 编译器
- NumPy 编译器
- Matplotlib 编译器
- SciPy 编译器
Python - URL 处理
在互联网世界中,不同的资源由 URL(统一资源定位符)标识。Python 的标准库包含 **urllib** 包,其中包含用于处理 URL 的模块。它可以帮助您解析 URL、获取网络内容和管理错误。
本教程介绍 urllib 基础知识,帮助您开始使用它。使用 urllib 提高您使用 Python 进行网络抓取、获取数据和管理 URL 的技能。
**urllib** 包包含以下用于处理 URL 的模块:
**urllib.parse** 模块用于将 URL 解析成其各个部分。
**urllib.request** 模块包含用于打开和读取 URL 的函数。
**urllib.error** 模块包含 urllib.request 抛出的异常的定义。
**urllib.robotparser** 模块解析 robots.txt 文件。
urllib.parse 模块
此模块作为标准接口,用于从 URL 字符串中获取各个部分。该模块包含以下函数:
urlparse(urlstring)
将 URL 解析成六个组件,返回一个包含 6 个项目的命名元组。每个元组项都是一个字符串,对应以下属性:
属性 | 索引 | 值 |
---|---|---|
scheme | 0 | URL 方案说明符 |
netloc | 1 | 网络位置部分 |
path | 2 | 分层路径 |
params | 3 | 最后一个路径元素的参数 |
query | 4 | 查询组件 |
fragment | 5 | 片段标识符 |
username | 用户名 | |
password | 密码 | |
hostname | 主机名(小写) | |
Port | 端口号(整数),如果存在 |
示例
from urllib.parse import urlparse url = "https://example.com/employees/name/?salary>=25000" parsed_url = urlparse(url) print (type(parsed_url)) print ("Scheme:",parsed_url.scheme) print ("netloc:", parsed_url.netloc) print ("path:", parsed_url.path) print ("params:", parsed_url.params) print ("Query string:", parsed_url.query) print ("Frgment:", parsed_url.fragment)
它将产生以下 **输出**:
<class 'urllib.parse.ParseResult'> Scheme: https netloc: example.com path: /employees/name/ params: Query string: salary>=25000 Frgment:
parse_qs(qs))
此函数解析给定为字符串参数的查询字符串。数据以字典的形式返回。字典的键是唯一的查询变量名称,值是每个名称的值列表。
要进一步将查询字符串中的查询参数提取到字典中,请使用 ParseResult 对象的 query 属性的 parse_qs() 函数,如下所示:
示例
from urllib.parse import urlparse, parse_qs url = "https://example.com/employees?name=Anand&salary=25000" parsed_url = urlparse(url) dct = parse_qs(parsed_url.query) print ("Query parameters:", dct)
它将产生以下 **输出**:
Query parameters: {'name': ['Anand'], 'salary': ['25000']}
urlsplit(urlstring)
这类似于 urlparse(),但不会从 URL 中拆分 params。如果需要更新的 URL 语法(允许将参数应用于 URL 路径部分的每个段),则通常应使用此函数而不是 urlparse()。
urlunparse(parts)
此函数与 urlparse() 函数相反。它根据 urlparse() 返回的元组构建 URL。parts 参数可以是任何六项可迭代对象。这将返回一个等效的 URL。
示例
from urllib.parse import urlunparse lst = ['https', 'example.com', '/employees/name/', '', 'salary>=25000', ''] new_url = urlunparse(lst) print ("URL:", new_url)
它将产生以下 **输出**:
URL: https://example.com/employees/name/?salary>=25000
urlunsplit(parts)
将 urlsplit() 返回的元组的元素组合成一个完整的 URL 字符串。parts 参数可以是任何五项可迭代对象。
urllib.request 模块
此模块提供了用于通过使用 **urlopen()** 函数处理 URL 的打开和读取操作的函数和类。
urlopen() 函数
此函数打开给定的 URL,该 URL 可以是字符串或 Request 对象。可选的 timeout 参数指定阻塞操作的超时时间(以秒为单位)。这实际上仅适用于 HTTP、HTTPS 和 FTP 连接。
此函数始终返回一个可以作为上下文管理器工作的对象,并且具有 url、headers 和 status 属性。对于 HTTP 和 HTTPS URL,此函数返回一个略作修改的 http.client.HTTPResponse 对象。
示例
以下代码使用 urlopen() 函数从图像文件读取二进制数据,并将其写入本地文件。您可以使用任何图像查看器在您的计算机上打开图像文件。
from urllib.request import urlopen obj = urlopen("https://tutorialspoint.com/images/logo.png") data = obj.read() img = open("img.jpg", "wb") img.write(data) img.close()
它将产生以下 **输出**:
Request 对象
urllib.request 模块包含 Request 类。此类是 URL 请求的抽象。构造函数需要一个必需的字符串参数,即有效的 URL。
语法
urllib.request.Request(url, data, headers, origin_req_host, method=None)
参数
**url** - 一个有效的 URL 字符串
**data** - 指定要发送到服务器的其他数据的对象。此参数只能与 HTTP 请求一起使用。数据可以是字节、类文件对象和字节类对象的迭代器。
**headers** - 应该是标头及其关联值的字典。
**origin_req_host** - 应该是原始事务的请求主机
**method** - 应该是指示 HTTP 请求方法的字符串。GET、POST、PUT、DELETE 和其他 HTTP 动词之一。默认为 GET。
示例
from urllib.request import Request obj = Request("https://tutorialspoint.com/")
此 Request 对象现在可以用作 urlopen() 方法的参数。
from urllib.request import Request, urlopen obj = Request("https://tutorialspoint.com/") resp = urlopen(obj)
urlopen() 函数返回一个 HttpResponse 对象。调用其 read() 方法将获取给定 URL 上的资源。
from urllib.request import Request, urlopen obj = Request("https://tutorialspoint.com/") resp = urlopen(obj) data = resp.read() print (data)
发送数据
如果将 data 参数定义为 Request 构造函数,则会将 POST 请求发送到服务器。数据应为以字节表示的任何对象。
from urllib.request import Request, urlopen from urllib.parse import urlencode values = {'name': 'Madhu', 'location': 'India', 'language': 'Hindi' } data = urlencode(values).encode('utf-8') obj = Request("https://example.com", data)
发送标头
Request 构造函数还接受 header 参数,以将标头信息推送到请求中。它应该是一个字典对象。
headers = {'User-Agent': user_agent} obj = Request("https://example.com", data, headers)
urllib.error 模块
urllib.error 模块中定义了以下异常:
URLError
由于没有网络连接(没有到指定服务器的路由)或指定的服务器不存在而引发 URLError。在这种情况下,引发的异常将具有 'reason' 属性。
示例
from urllib.request import Request, urlopen import urllib.error as err obj = Request("http://www.nosuchserver.com") try: urlopen(obj) except err.URLError as e: print(e)
它将产生以下 **输出**:
HTTP Error 403: Forbidden
HTTPError
每次服务器发送 HTTP 响应时,它都与一个数字“状态代码”相关联。代码指示服务器为何无法满足请求。默认处理程序将为您处理其中一些响应。对于它无法处理的响应,urlopen() 函数将引发 HTTPError。HTTPErrors 的典型示例是“404”(页面未找到),“403”(请求被禁止)和“401”(需要身份验证)。
示例
from urllib.request import Request, urlopen import urllib.error as err obj = Request("https://www.pythonlang.cn/fish.html") try: urlopen(obj) except err.HTTPError as e: print(e.code)
它将产生以下 **输出**:
404