课程 说明
在本课程中,我们将教你如何编写一个充当机器人的程序,搜索不同的网站以获取您需要的信息。与大多数使用高级模块的网络爬虫和网络抓取课程(实际上您只是复制粘贴代码)不同,在本课程中,我们将首先教你网络爬虫所需的所有网络概念。
网络部分
所以,如果我们想先编写一些代码,我们会先解释代码背后的网络细节,然后说明代码为什么能实现其功能。在理论上解释完所有内容后,我们会实际操作并在 Wireshark 中探索以上所有概念。这样,您将熟悉 TCP/IP、网络地址转换、套接字等概念。在网络部分之后,我们将开始编程部分。
编程部分
在本部分中,我们首先使用像 requests 这样的高级模块。我们将学习如何发送 HTTP 请求并接收相关的 HTTP 响应。之后,我们将深入探讨 Python 中的 socket 模块,它是 Python 网络编程中最重要的模块。因此,我们将创建一个套接字,并学习该模块中的不同方法,借助这些方法,我们将开始向 Web 服务器发送和接收数据,反之亦然。并且我们将学习如何搜索这些数据以获取我们最感兴趣和有用的信息。之后,我们将通过使 Kali Linux 充当 Web 服务器来提供网页,从而创建一个网站,并学习如何搜索不同的页面以查找电子邮件地址、链接等。
目标
- Python 编程
- 套接字编程
- Python 中的套接字编程
- 网络基础
- HTTP 和 HTTPS 协议
- 创建网络爬虫
课程大纲
查看课程内容的详细分解
网络基础和网络爬虫
16 节课
- 1- 简介 - 您将在本课程中学到什么 02:20 02:20
- 2- 简介 - 什么是网络爬虫 11:54 11:54
- 3- TCP/IP 数据包格式 09:36 09:36
- 4- 什么是套接字 03:27 03:27
- 5- IP 地址 03:55 03:55
- 6- NAT(网络地址转换) 05:59 05:59
- 7- Wireshark 中的 NAT 04:36 04:36
- 8- 使用 Python requests 模块发送 HTTP GET 请求 09:01 09:01
- 9- 使用 Python requests 模块发送 HTTP POST 请求 07:45 07:45
- 10- 如何在 Python 中创建套接字以发送数据 09:55 09:55
- 11- 如何使用 Python 中的 socket 模块发送 HTTP 请求 05:30 05:3
- 12- 如何使用套接字接收 HTTP 响应 07:11 07:11
- 13- re 模块(正则表达式) 07:29 07:29
- 14- 打印网页中的所有链接和电子邮件 16:20 16:20
- 15- 使用 Apache 和 Python 将 Linux 作为 Web 服务器 12:31 12:31
- 16- 在不同的网页中搜索电子邮件地址 10:19 10:19
讲师 信息
mgh gh
课程 证书
使用您的证书来改变职业生涯或在您目前的职业生涯中提升自己。