在 Linux shell 变量中获取网页内容

Linux 操作系统开源

简介

Linux 命令行最有用和强大的功能之一是能够操作文本。当处理网页时，这尤其有用，因为网页内容通常可以保存为纯文本，然后使用命令行工具进行操作。在本文中，我们将探讨如何在 Linux 中将网页内容插入到 shell 变量中。

什么是 shell 变量？

shell 变量是存储在内存中的值，可以被 shell（命令行界面）和其他程序使用。shell 变量通常以 **NAME=value** 的形式定义，其中“NAME”是变量的名称，“value”是存储在变量中的值。

shell 变量可以用来存储各种信息，包括命令行工具的输出、文本文件的内容，甚至网页的内容。

使用 curl 获取网页内容

将网页内容放入 shell 变量的最简单方法之一是使用 **“curl”** 命令。**Curl** 是一个用于向服务器传输或从服务器传输数据的命令行工具。它支持各种协议，包括 HTTP、HTTPS、FTP 等等。

要使用 **curl** 将网页内容放入 shell 变量，可以使用以下命令：

$ webcontent=$(curl -s https://www.example.com)

此命令将 https://www.example.com 上的网页内容存储在 shell 变量“webcontent”中。“-s”标志指示 curl 以静默模式运行，这意味着它不会向终端打印任何输出。

使用 grep 从网页中提取特定行

将网页内容放入 shell 变量后，可以使用 **grep** 等命令行工具从网页中提取特定的文本行。grep 是一个功能强大的命令行工具，用于在文本中搜索模式。

例如，假设我们想要 **从网页中提取所有链接**。我们可以使用以下命令来执行此操作：

$ links=$(echo "$webcontent" | grep -o 'href="[^"]*"')

此命令将使用 grep 在网页内容中查找模式 **'href="[^"]*"'** 的所有出现，该模式匹配页面上的所有链接。“-o”标志告诉 grep 只打印文本的相应部分，在本例中是链接本身。此命令的输出将是网页上所有链接的列表，每行一个链接。

使用 awk 从网页中提取特定字段

另一个用于从文本中提取特定信息的实用命令行工具是 **“awk”**。**Awk** 是一种专为文本处理而设计的编程语言，通常用于从文本文件中提取特定字段。

例如，假设我们想要提取网页的标题。网页标题通常存储在 HTML 源代码的 **"title"** 元素中，如下所示：

<title>Example Web Page</title>

要使用 **awk** 提取网页标题，可以使用以下命令：

$ title=$(echo "$webcontent" | awk '// {print $0}' | sed 's/<[^>]*>//g')

此命令将搜索模板。

使用 cut 从网页中提取特定字段

另一个用于从文本中提取特定字段的实用命令行工具是 **“cut”**。**Cut** 是一个用于从文件或命令输出中提取特定字段的命令行工具。

例如，假设您想从以下格式的姓名列表中提取名字和姓氏：“first last”。我们可以使用以下命令来执行此操作：

$ names="John Smith Jane Doe"
$ first_names=$(echo "$names" | cut -d' ' -f1)
$ last_names=$(echo "$names" | cut -d' ' -f2)
$ echo "$first_names"
# Output: John Jane
$ echo "$last_names"
# Output: Smith Doe

此命令使用 **“-d”** 标志指定分隔符（在本例中为空格）和 **“-f”** 标志指定要提取的字段号。该命令的输出是名字和姓氏的列表，由分隔符分隔。

结论

在本文中，我们探讨了如何在 Linux 上将网页内容放入 shell 变量中，以及如何使用 **curl、grep、awk** 和 **cut** 等命令行工具从网页中提取特定信息。这些工具功能强大，在命令行上处理网页时可以为您节省大量时间和精力。

Pradeep Jhuriya

更新于：2023年1月25日

2K+ 次浏览

开启您的职业生涯

通过完成课程获得认证

开始学习