23.10.2024 更新于：30.06.2026

Linux

4 6 min

如何使用 `grep` 命令在文件中查找信息

grep 命令——Global Regular Expression Print（全局正则表达式打印）的缩写——是一个 Unix/Linux 实用工具，可逐行扫描一个或多个文件，并打印与给定模式匹配的每一行。它是任何 POSIX 兼容系统上文本搜索的事实标准，支持基本和扩展正则表达式，能够匹配从简单字符串到复杂多字符模式的所有内容。

如果您需要最简短的答案：运行 grep "pattern" filename 搜索文件，添加 -r 递归搜索目录树，-i 进行不区分大小写的匹配，-n 在结果旁显示行号。以下各节将深入介绍实际工作流程、性能陷阱以及大多数教程完全跳过的高级正则表达式技术。

grep 底层实际工作原理

grep 逐行读取输入，并将从正则表达式派生的有限自动机应用于每一行。GNU 实现（Linux 上的默认实现）对字面字符串使用 Boyer-Moore-Horspool 算法，对正则表达式模式使用 Thompson NFA 构造。这种架构正是 grep 在大文件上速度极快的原因——它避免了回溯，这与基于 PCRE 的工具（如 perl 或 python）不同。

GNU coreutils 系列中存在三个不同的二进制文件：

命令	引擎	使用场景
`grep`	BRE / ERE（使用 `-E`）	通用行匹配
`egrep`	ERE（扩展正则表达式）	`grep -E` 的简写
`fgrep`	仅固定字符串	最快；不进行正则表达式解释
`zgrep`	压缩文件上的 BRE / ERE	`.gz`、`.bz2` 归档文件
`pgrep`	进程名称匹配	搜索进程表，而非文件

egrep 和 fgrep 在现代系统中是已弃用的别名；在脚本中请分别使用 grep -E 和 grep -F 以确保可移植性。

基本语法

grep [options] pattern [file ...]

pattern——用引号括起来的字符串或正则表达式
file——一个或多个文件路径；省略则从标准输入读取
options——修改匹配行为、输出格式或性能的标志

在 syslog 中查找包含单词”error”的每一行的最简示例：

grep "error" /var/log/syslog

始终为您的模式加引号。包含 shell 元字符（*、?、[、$）的未加引号模式将在 grep 看到它们之前被 shell 展开，从而产生静默的错误结果。

每位管理员必须掌握的核心选项

搜索多个文件和目录

显式列出文件或使用 shell 通配符：

grep "error" access.log error.log debug.log
grep "error" *.log

对于整个目录树，使用 -r（使用 -R 跟随符号链接）：

grep -r "error" /var/log/

陷阱：在具有深度嵌套日志层次结构的生产服务器上，无范围限制的 -r 可能会消耗大量 I/O。使用 --include 限定范围，以避免扫描二进制文件或无关扩展名：

grep -r --include="*.log" "error" /var/log/

不区分大小写搜索（`-i`）

grep -i "error" application.log

这将匹配 error、Error、ERROR、eRrOr 以及所有其他大小写排列。在内部，带有 -i 的 GNU grep 在比较之前将模式和输入都转换为小写，这在非常大的文件上会增加少量开销。

显示行号（`-n`）

grep -n "error" application.log

示例输出：

25:error occurred during processing
103:error: connection refused

当您需要在编辑器中直接跳转到匹配位置时，行号不可或缺：vim +25 application.log 可在第 25 行打开文件。

统计匹配数（`-c`）

grep -c "error" application.log

仅返回匹配行的数量，而非行本身。搜索多个文件时，每个文件都有自己的计数：

grep -c "error" *.log

access.log:0
debug.log:14
error.log:3

反向匹配（`-v`）

grep -v "error" application.log

返回不匹配模式的每一行。一个实际用途：在将配置文件传输到其他地方之前，去除注释行：

grep -v "^#" /etc/nginx/nginx.conf | grep -v "^$"

这将删除注释行（以 # 开头）和空行，只保留有效指令。

全词匹配（`-w`）

grep -w "error" application.log

不使用 -w 时，搜索 error 也会匹配 errors、error_code 和 myerror。-w 标志将匹配锚定到单词边界，定义为单词字符（[a-zA-Z0-9_]）与非单词字符之间的转换。

限制输出行数（`-m`）

grep -m 5 "error" application.log

grep 在找到 5 个匹配行后停止读取文件。对于仅需确认模式是否存在的 10 GB 日志文件，-m 1 可将执行时间从数秒缩短至毫秒级，因为 grep 在第一次匹配后立即退出。

上下文行（`-A`、`-B`、`-C`）

这是最少被使用的功能之一。在诊断错误时，周围的行通常包含根本原因：

grep -A 3 "error" application.log   # 3 lines After the match
grep -B 3 "error" application.log   # 3 lines Before the match
grep -C 3 "error" application.log   # 3 lines of Context (before and after)

这就是只看到 error: connection refused 与看到完整堆栈跟踪或触发错误的前置请求之间的区别。

颜色高亮（`--color`）

grep --color=auto "error" application.log

大多数发行版在 /etc/profile.d/ 或 ~/.bashrc 中设置了 alias grep='grep --color=auto'。管道传输到 less -R 时使用 --color=always 以保留 ANSI 代码：

grep --color=always "error" application.log | less -R

仅打印匹配部分（`-o`）

默认情况下，grep 打印整个匹配行。-o 标志仅打印行中与模式匹配的部分：

grep -o "192.[0-9]*.[0-9]*.[0-9]*" access.log

这从访问日志中提取每个 IPv4 地址——每行一个地址——非常适合通过管道传输到 sort | uniq -c | sort -rn 以查找最活跃的客户端。

抑制文件名输出（`-h`）和强制显示（`-H`）

搜索多个文件时，grep 会在每个匹配前加上文件名。-h 抑制此行为；-H 即使搜索单个文件也强制显示文件名。在脚本中使用 -H 以确保无论传入多少文件，输出格式始终一致。

仅打印文件名（`-l` 和 `-L`）

grep -l "error" *.log    # files that contain the pattern
grep -L "error" *.log    # files that do NOT contain the pattern

在部署脚本中非常有用，可识别哪些配置文件引用了已弃用的参数。

grep 中的正则表达式

基本正则表达式（BRE）

grep 默认使用 BRE。关键元字符：

元字符	含义	示例
`^`	行首	`grep "^error"`——以”error”开头的行
`$`	行尾	`grep "error$"`——以”error”结尾的行
`.`	任意单个字符	`grep "err.r"`——匹配”error”、”errar”等
`*`	前一项零次或多次	`grep "err*"`——”er”、”err”、”errr”等
`[abc]`	字符类	`grep "[aeiou]"`——任意元音字母
`[^abc]`	否定类	`grep "[^0-9]"`——任意非数字字符
	转义元字符	`grep "."`——字面点号

在 BRE 中，+、?、{、}、(、) 和 | 必须加反斜杠转义才能被视为元字符。这是在 BRE 和 ERE 之间切换时常见的混淆来源。

使用 `-E` 的扩展正则表达式（ERE）

grep -E "error|failure|critical" application.log

ERE 使语法更简洁——+、?、|、() 和 {} 无需反斜杠即可使用：

grep -E "err(or|ata)?" application.log       # matches "err", "error", "errata"
grep -E "[0-9]{1,3}.[0-9]{1,3}" access.log  # partial IP pattern
grep -E "^(ERROR|WARN|FATAL)" app.log        # lines starting with severity levels

使用 `-P` 的 Perl 兼容正则表达式（PCRE）

GNU grep 通过 -P 标志支持 PCRE，解锁了前瞻、后顾和非贪婪量词：

grep -P "(?<=user=)w+" auth.log    # extract username after "user="
grep -P "d{4}-d{2}-d{2}" app.log # ISO date format

重要：-P 是 GNU 扩展，在 BSD grep（macOS 默认）上不可用。使用 -P 的脚本在不安装 GNU grep（macOS 上为 brew install grep）的情况下不具备可移植性。

使用 `zgrep` 搜索压缩文件

日志轮转通常使用 gzip 压缩旧日志。zgrep 允许您无需手动解压即可搜索它们：

zgrep "error" /var/log/syslog.2.gz

对于 .bz2 文件，使用 bzgrep。对于 .xz 文件，使用 xzgrep。如果您需要在一个命令中同时搜索压缩和未压缩日志：

zgrep -r "error" /var/log/

边缘情况：zgrep 内部调用 zcat 进行解压，然后通过管道传输到 grep。它不支持所有 grep 标志。如果您需要在压缩文件上使用 -P 或 -o，请先解压到临时文件，或使用 zcat file.gz | grep -P "pattern"。

将 grep 与其他命令结合使用

grep 的真正威力在于通过管道与其他实用工具组合使用。

过滤进程输出

ps aux | grep "[n]ginx"

括号技巧 [n]ginx 防止 grep 进程本身出现在结果中，因为模式 [n]ginx 与进程列表中的字面字符串 [n]ginx 不匹配。

提取和聚合日志数据

grep "error" application.log | sort | uniq -c | sort -rn | head -20

此管道：查找所有错误行，对其排序，统计唯一出现次数，按频率降序重新排序，并显示前 20 个最常见的错误。这是任何生产事故的第一响应分类技术。

查找包含模式的文件，然后对其执行操作

grep -rl "deprecated_function" /var/www/html/ | xargs sed -i 's/deprecated_function/new_function/g'

grep -rl 列出包含该模式的文件；xargs 将它们传递给 sed 进行原地替换。请始终先在不使用 -i 的情况下测试，或使用 -i.bak 创建备份。

通过 SSH 搜索

ssh user@server "grep -r 'error' /var/log/app/" | less

您可以在远程服务器上运行 grep 并将结果流式传输回本地终端——当日志文件太大无法传输时非常有用。

与 `awk` 结合进行结构化解析

grep "POST /api" access.log | awk '{print $1, $7, $9}'

grep 过滤相关行；awk 提取特定字段（IP、URL、状态码）。这种组合无需专用日志聚合平台即可处理大多数日志分析任务。

性能注意事项

在大文件或高频自动化场景中，以下优化至关重要：

对字面字符串使用 -F。grep -F "exact string" 完全绕过正则表达式编译，速度明显更快。
使用 LC_ALL=C。设置 LC_ALL=C grep "pattern" file 强制单字节区域设置处理，在 UTF-8 文件上可快 2–5 倍，因为它跳过了多字节字符处理。
避免在网络挂载文件系统上使用 -r。在 NFS 或 CIFS 上递归 grep 可能会使网络 I/O 饱和。改用带有 -exec 和明确路径范围的 find。
在 Linux 上使用 --mmap。grep --mmap 使用内存映射 I/O 而非 read() 系统调用，减少大文件的开销（并非所有平台都支持）。
使用 xargs -P 并行化。对于搜索许多独立文件，分割工作负载：

find /var/log -name "*.log" | xargs -P 4 grep -l "error"

这并行运行 4 个 grep 进程，充分利用多个 CPU 核心。

grep 与替代搜索工具对比

工具	大型仓库速度	正则表达式支持	遵守 `.gitignore`	最适合
`grep`	中等	BRE/ERE/PCRE	否	系统文件、日志、脚本编写
`ripgrep`（`rg`）	非常快	PCRE2	是	仓库中的代码搜索
`ag`（Silver Searcher）	快	PCRE	是	代码搜索，`rg` 的较旧替代品
`ack`	中等	PCRE	部分	以 Perl 为中心的代码库
`fgrep` / `grep -F`	最快	无（字面量）	否	固定字符串日志扫描

对于系统管理任务——扫描 /var/log、/etc 或实时进程输出——grep 仍然是正确的工具，因为它无需安装即可普遍使用。对于搜索应用程序代码库，ripgrep 明显更快且更符合人体工程学。

实际工作流程

审计 SSH 登录失败

grep -i "failed password" /var/log/auth.log | grep -oP "from K[d.]+" | sort | uniq -c | sort -rn | head -10

这提取每次 SSH 登录失败尝试的源 IP 并按频率排名——在更新防火墙规则之前识别暴力破解来源的第一步。

重启服务前查找配置错误

grep -rn "listens*443" /etc/nginx/

确认哪些 Nginx 配置文件定义了 HTTPS 监听器。结合您的 SSL 证书设置，验证这些文件中引用的证书路径是否实际存在。

实时监控日志文件

tail -f /var/log/app/production.log | grep --line-buffered "ERROR"

--line-buffered 强制 grep 在每行后刷新输出而不是缓冲，这在从 tail -f 管道传输时至关重要。没有它，即使匹配正在发生，您也可能数分钟内看不到任何输出。

验证已部署的配置

grep -c "server_name" /etc/nginx/sites-enabled/* | grep -v ":0"

列出每个至少有一个 server_name 指令的已启用 Nginx 站点——在 VPS 托管环境中部署新虚拟主机后的快速健全性检查。

从文件中提取电子邮件地址

grep -Eo "[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+.[a-zA-Z]{2,}" contacts.txt

-o 标志结合 ERE 模式仅提取匹配的电子邮件地址，每行一个，可供进一步处理。

跨多台服务器搜索应用程序日志

在运行多个应用程序实例的独立服务器上，您可能需要跨目录关联日志：

grep -rh --include="*.log" "transaction_id=abc123" /var/log/app1/ /var/log/app2/ /var/log/app3/

-h 抑制文件名，使输出可以干净地通过管道传输到按时间戳排序的视图中。

常见错误及如何避免

忘记为含空格的模式加引号：

# Wrong — shell splits "connection refused" into two arguments
grep connection refused /var/log/syslog

# Correct
grep "connection refused" /var/log/syslog

在需要 ERE 时使用 BRE 语法：

# Wrong in BRE — + is literal
grep "error+" app.log

# Correct — use -E or escape in BRE
grep -E "error+" app.log
grep "error+" app.log

递归搜索命中二进制文件：

# Produces "Binary file matches" noise
grep -r "config" /usr/

# Correct — skip binary files
grep -r --binary-files=without-match "config" /usr/
# or equivalently
grep -rI "config" /usr/

锚定混淆——字符类内的 ^：

[^abc] 表示”不是 a、b 或 c”。^ 只有在模式最开头、括号外出现时才表示”行首”。

关键要点与决策矩阵

构建 grep 命令时使用此检查清单：

字面字符串，不需要正则表达式？添加 -F 以获得最大速度。
目标文件中大小写不确定？添加 -i。
需要知道匹配在文件中的位置？添加 -n。
搜索目录树？添加 -r --include="*.ext" 以限定搜索范围。
大文件，只需确认是否存在？添加 -m 1，grep 在第一次命中后退出。
需要周围上下文用于诊断？添加 -C 3。
模式包含 shell 元字符？用单引号括住模式：grep '$variable'。
搜索压缩日志？使用 zgrep 或 zcat file.gz | grep。
需要交替或 +/? 量词？添加 -E 以使用 ERE。
需要前瞻或非贪婪匹配？添加 -P 以使用 PCRE（仅 GNU grep）。
提取特定匹配文本而非整行？添加 -o。
搜索代码库而非系统文件？考虑改用 ripgrep。

在管理服务器基础设施时——无论是在带 cPanel 的 VPS 还是裸 Linux 环境中——grep 是出现问题时您首先使用的工具。熟练掌握其标志组合以及与 awk、sed、sort 和 xargs 的可组合性，可在数秒内将原始日志数据转化为可操作的诊断信息。

对于电子邮件托管或 Web 应用程序生成大量结构化日志的环境，将 grep 与日志聚合管道（ELK stack、Loki 或类似工具）配对是自然的下一步——但 grep 仍然是随处可用、始终有效、无需任何依赖的后备工具。

常见问题

grep、egrep 和 fgrep 有什么区别？

grep 默认使用基本正则表达式。egrep 等同于 grep -E，使用扩展正则表达式，其中 +、?、| 和 () 无需反斜杠即可使用。fgrep 等同于 grep -F，将模式视为固定字面字符串，不进行正则表达式解释，是最快的选项。egrep 和 fgrep 都是已弃用的别名；在脚本中请使用 grep -E 和 grep -F。

为什么 grep -r 有时会返回”Binary file matches”？

grep 通过扫描空字节来检测二进制文件。当它在认为是二进制文件的内容中找到匹配时，会打印此消息而非匹配行。使用 grep -rI（大写 I）抑制二进制文件，或使用 grep -ra 强制文本模式处理（将所有文件视为文本）。在生产环境中使用 -I 以避免意外匹配编译对象或压缩文件时产生乱码输出。

如何搜索包含正斜杠的模式？

正斜杠在 grep 模式中没有特殊含义（与 sed 或 awk 不同）。您可以直接使用它们：grep "var/log" /etc/logrotate.conf。无需转义。

检查字符串是否存在于大文件中的最快方法是什么？

使用 grep -qF "string" file && echo "found"。-q 标志抑制所有输出，在第一次匹配时以状态 0 退出，无匹配时以 1 退出。-F 标志禁用正则表达式处理。两者结合，grep 只读取所需的文件内容并立即退出——对于 GB 级别的文件至关重要。

grep 能在不将文件复制到本地的情况下搜索远程服务器上的文件吗？

可以。通过 SSH 管道传输：ssh user@host "grep -r 'pattern' /var/log/"。搜索在远程主机上执行，只有匹配行通过网络传输。对于频繁搜索，考虑使用 sshfs 挂载远程文件系统并在本地运行 grep，或者如果数据量足以支撑基础设施，则使用集中式日志解决方案。

所有托管服务节省