如何使用 Linux grep 命令

Why the operating system matters even more in 2017

图片来源：

互联网档案馆图书图片。由 Opensource.com 修改。CC BY-SA 4.0

Global Regular Expression Print (grep) 命令是经典的 Unix 命令之一，由 Ken Thompson 早在 1974 年开发。它在计算领域非常普及，以至于经常被用作动词（“grepping through a file”，在文件中 grep 查找），并且根据您的受众的 geeky 程度，它也很适合现实世界的场景。（例如，“我必须 grep 我的记忆库才能回忆起该信息。”）简而言之，grep 是一种在文件中搜索特定字符模式的方法。如果这听起来像任何文字处理器或文本编辑器中提供的现代“查找”功能，那么您已经体验过 grep 对计算行业的影响。

grep 的真正威力远不止是一个已被现代技术取代的古老命令，它体现在两个方面：

Grep 在终端中工作并对数据流进行操作，因此您可以将其合并到复杂流程中。您不仅可以查找文本文件中的单词；还可以提取单词，将其发送到另一个命令，等等。
Grep 使用正则表达式来提供灵活的搜索功能。

学习 grep 命令很容易，尽管确实需要一些练习。本文向您介绍了我发现最有用的它的一些功能。

[下载我们的免费 grep 速查表]

安装 grep

如果您使用的是 Linux，则已经安装了 grep。

在 macOS 上，您拥有 BSD 版本的 grep。这与 GNU 版本略有不同，因此如果您想完全按照本文进行操作，请从 Homebrew 或 MacPorts 等项目安装 GNU grep。

基本 grep

基本的 grep 语法始终相同。您向 grep 命令提供一个模式和一个您要搜索的文件。作为回报，它会将每条匹配的行打印到您的终端。

$ grep gnu gpl-3.0.txt
    along with this program.  If not, see <https://gnu.ac.cn/licenses/>.
<https://gnu.ac.cn/licenses/>.
<https://gnu.ac.cn/philosophy/why-not-lgpl.html>.

默认情况下，grep 命令区分大小写，因此“gnu”与“GNU”或“Gnu”不同。您可以使用 --ignore-case 选项使其忽略大小写。

$ grep --ignore-case gnu gpl-3.0.txt
                    GNU GENERAL PUBLIC LICENSE
  The GNU General Public License is a free, copyleft license for
the GNU General Public License is intended to guarantee your freedom to
GNU General Public License for most of our software; it applies also to
[...16 more results...]
<https://gnu.ac.cn/licenses/>.
<https://gnu.ac.cn/philosophy/why-not-lgpl.html>.

您还可以使用 --invert-match 选项使 grep 命令返回不匹配的所有行

$ grep --invert-match \
--ignore-case gnu gpl-3.0.txt
                      Version 3, 29 June 2007

 Copyright (C) 2007 Free Software Foundation, Inc. <http://fsf.org/>
[...648 lines...]
Public License instead of this License.  But first, please read

管道

能够在一个文件中查找文本很有用，但是 POSIX 的真正强大之处在于它能够通过“管道”将命令链接在一起。我发现 grep 最好的用途是与其他工具结合使用，例如 cut、tr 或 curl。

例如，假设我有一个文件，其中列出了一些我想下载的技术论文。我可以打开该文件并手动单击每个链接，然后单击 Firefox 选项以将每个文件保存到我的硬盘驱动器，但这会花费大量时间和点击次数。相反，我可以 grep 文件中的链接，使用 --only-matching 选项仅打印匹配的字符串

$ grep --only-matching http\:\/\/.*pdf example.html
http://example.com/linux_whitepaper.pdf
http://example.com/bsd_whitepaper.pdf
http://example.com/important_security_topic.pdf

输出是一个 URL 列表，每个 URL 占一行。这非常适合 Bash 处理数据的方式，因此与其将 URL 打印到我的终端，不如直接通过管道将其输入到 curl

$ grep --only-matching http\:\/\/.*pdf \
example.html | curl --remote-name

这将下载每个文件，并根据其远程文件名将其保存到我的硬盘驱动器上。

在此示例中，我的搜索模式可能看起来很神秘。这是因为它使用了正则表达式，一种“通配符”语言，在广泛搜索大量文本时特别有用。

正则表达式

没有人幻想正则表达式（简称“regex”）很容易。但是，我发现它的名声通常比它应得的要差。诚然，人们有可能在使用正则表达式时变得过于聪明，直到它变得难以理解且过于宽泛以至于适得其反，但您不必过度使用正则表达式。以下是我使用正则表达式方式的简要介绍。

首先，创建一个名为 example.txt 的文件并将以下文本输入到其中

Albania
Algeria
Canada
0
1
3
11

正则表达式最基本的元素是简单的 . 字符。它代表单个字符。

$ grep Can.da example.txt
Canada

模式 Can.da 成功返回了 Canada，因为 . 字符代表任何一个字符。

可以使用以下符号修改 . 通配符以表示多个字符：

? 匹配前面的项零次或一次
* 匹配前面的项零次或多次
+ 匹配前面的项一次或多次
{4} 匹配前面的项四次（或您在花括号中输入的任何数字）

掌握了这些知识，您就可以在整个下午练习 example.txt 上的正则表达式，看看您能想出什么有趣的组合。有些不起作用；有些会起作用。重要的是分析结果，以便您了解原因。

高级正则表达式需要 --extended-regexp 或 -E 选项。

例如，以下命令无法返回任何国家/地区

$ grep -E A.a example.txt

它失败的原因是 . 字符只能匹配单个字符，除非您对其进行升级。使用 * 字符，您可以告诉 grep 匹配单个字符零次或根据需要多次，直到到达单词末尾。因为您知道您正在处理的列表，所以您知道零次在这种情况下是无用的。此列表中绝对没有三个字母的国家/地区名称。因此，您可以改用 + 来匹配单个字符至少一次，然后根据需要再次匹配多次，直到单词末尾

$ grep -E A.+a example.txt
Albania
Algeria

您可以使用方括号来提供字母列表

$ grep -E [AC].+a example.txt
Albania
Algeria
Canada

这也适用于数字。结果可能会让您感到惊讶

$ grep [1-9] example.txt
1
3
11

您是否对在搜索数字 1 到 9 时看到 11 感到惊讶？

如果您将 13 添加到列表中会发生什么？

返回这些数字是因为它们包含 1，而 1 在要匹配的数字列表中。

如您所见，正则表达式有点像谜题，但是通过实验和练习，您可以对其感到舒适，并使用它来改进 grep 数据的方式。

下载速查表

grep 命令具有比我在本文中演示的更多的选项。有一些选项可以更好地格式化结果、列出包含匹配项的文件和行号、通过打印匹配项周围的行来为结果提供上下文等等。如果您正在学习 grep，或者您只是发现自己经常使用它并求助于搜索其 info 页面，那么下载我们的 grep 速查表会对您有所帮助。速查表使用短选项（例如 -v 而不是 --invert-matching）作为一种让您熟悉常用 grep 简写的方式。它还包含一个正则表达式部分，以帮助您记住最常见的正则表达式代码。立即下载 grep 速查表！

接下来阅读什么