如何在 Linux 终端下载网页?
除了其固有的处理 Web 服务器和 Web 浏览的能力外,Linux 命令行还提供强大的 Web 爬取功能。在本文中,我们将检查一些在 Linux 环境中可用或可以安装和使用的工具,用于离线 Web 浏览。这基本上是通过下载网页或多个网页来实现的。
Wget
Wget 可能是所有下载选项中最著名的一个。它允许从 http、https 以及 FTP 服务器下载。它可以下载整个网站,并允许代理浏览。
以下是安装和开始使用它的步骤。
检查 wget 是否已可用
ubuntu@ubuntu:~$ which wget ; echo $?
运行以上代码,得到以下结果
/usr/bin/wget 0
如果退出代码($?)为 1,则运行以下命令安装 wget。
ubuntu@ubuntu:~$ sudo apt-get install wget
现在,我们为要下载的特定网页或网站运行 wget 命令。
#Downlaod a webpage wget https://en.wikipedia.org/wiki/Linux_distribution # Download entire website wget abc.com
运行以上代码,得到以下结果。我们只显示网页的结果,而不是整个网站的结果。下载的文件保存在当前目录中。
ubuntu@ubuntu:~$ wget https://en.wikipedia.org/wiki/Linux_distribution --2019-12-29 23:31:41-- https://en.wikipedia.org/wiki/Linux_distribution Resolving en.wikipedia.org (en.wikipedia.org)... 103.102.166.224, 2001:df2:e500:ed1a::1 Connecting to en.wikipedia.org (en.wikipedia.org)|103.102.166.224|:443... connected. HTTP request sent, awaiting response... 200 OK Length: 216878 (212K) [text/html] Saving to: ‘Linux_distribution’ Linux_distribution 100%[===================>] 211.79K 1.00MB/s in 0.2s 2019-12-29 23:31:42 (1.00 MB/s) - ‘Linux_distribution’ saved [216878/216878]
cURL
cURL 是一个客户端应用程序。它支持从 http、https、FTP、FTPS、Telnet、IMAP 等下载文件。与 wget 相比,它对不同类型的下载具有额外的支持。
以下是安装和开始使用它的步骤。
检查 cURL 是否已可用
ubuntu@ubuntu:~$ which cURL ; echo $?
运行以上代码,得到以下结果
1
值为 1 表示系统中没有 cURL。因此,我们将使用以下命令安装它。
ubuntu@ubuntu:~$ sudo apt-get install curl
运行以上代码,得到以下结果,表明 cURL 已安装。
[sudo] password for ubuntu: Reading package lists... Done …. Get:1 http://us.archive.ubuntu.com/ubuntu xenial-updates/main amd64 curl amd64 7.47.0-1ubuntu2.14 [139 kB] Fetched 139 kB in 21s (6,518 B/s) ……. Setting up curl (7.47.0-1ubuntu2.14) ...
接下来,我们使用 cURL 下载网页。
curl -O https://en.wikipedia.org/wiki/Linux_distribution
运行以上代码,得到以下结果。您可以在当前工作目录中找到下载的文件。
% Total % Received % Xferd Average Speed Time Time Time Current Dload Upload Total Spent Left Speed 100 211k 100 211k 0 0 312k 0 --:--:-- --:--:-- --:--:-- 311k
广告