垃圾回收 - Tony Bai

标签垃圾回收下的文章

被嘲笑比 Python 还慢？扒开 Go 正则表达式的底层，看看它为了防范“系统猝死”付出了什么

三月 17, 2026
0 条评论

本文永久链接 – https://tonybai.com/2026/03/17/why-is-go-regex-so-slow

大家好，我是Tony Bai。

如果有人问你：在处理纯 CPU 密集型的文本匹配时，Go 和 Python 哪个快？

相信 99% 的 Go 开发者会毫不犹豫地把票投给 Go。毕竟，一门编译型的静态语言，怎么可能输给拖着 GIL 锁的解释型脚本语言？

但现实往往比小说更魔幻。

最近，在 Reddit 的 r/golang 论坛上，一张残酷的 Benchmark 跑分图引发了整个 Go 社区的剧烈震荡。一位开发者，使用极其常见的日志解析正则表达式（提取 IP、时间、URI 等），对各大语言进行了一次横评。

结果令人大跌眼镜：同样的数据集，Rust 跑了 3.9 秒，Zig 跑了 1.3 秒，而 Go 居然跑了整整 38.1 秒！整整比第一名 Zig 慢了接近 30 倍！

如果你再去翻看 Go 官方的 Issue #26623，会看到更绝望的数据：早在2018年的一次正则基准测试中，Go 不仅被 C++ 和 Rust 碾压，甚至连 Python 3、PHP 和 Javascript 都能在正则上把 Go 按在地上摩擦。

一时间，无数 Gopher 信仰崩塌：“为什么 Go 的标准库 regexp 这么慢？”、“连简单的正则都做不好，Go 凭什么做云原生霸主？”

今天，我们就来硬核扒开 Go 语言 regexp 包的底层设计和实现。你会发现，这不是 Go 团队的技术拉跨，而是一场关于“性能、安全与工程哲学”的博弈。

原罪：你以为的慢，其实是替 CGO 负重前行

面对“为什么 Go 的正则比 Python 还慢”的灵魂拷问，Go 核心团队成员 Ian Lance Taylor 给出了第一层解释。

在 Python、PHP 甚至 Node.js 中，你以为你是在运行脚本，其实它们底层都在悄悄“作弊”。这些语言的正则表达式引擎，几乎全部是用高度优化的 C 语言库（主要是 PCRE，Perl Compatible Regular Expressions）编写的。

当你在 Python 里调用 re.match() 时，它瞬间就穿透到了 C 语言的底层，享受着现代 CPU 指令集的极致加速。

那 Go 为什么不用 C？因为 Go 是一门有着“极度洁癖”的语言。

如果 Go 的标准库引入了 C 语言的 PCRE，就必须通过 CGO 来调用。而 CGO 的上下文切换成本极高，更致命的是，它会彻底破坏 Go 引以为傲的“跨平台交叉编译”能力。你再也不能在一个简单的 go build 后，把二进制文件无痛丢到任何 Alpine 容器里了。

因此，Go 团队做出了第一个艰难的决定：完全使用纯 Go 语言，从零手写一个正则表达式引擎。

脱离了 C 语言几十年的底层优化积累，用原生代码去硬刚别人的 C 引擎，这是 Go 看起来“慢”的表层原因。

但这，仅仅是冰山一角。

路线之争：为了防止系统“猝死”，Go 抛弃了速度

真正让 Go 正则变得“慢”的，是算法架构上的降维选择。这牵扯到 Go 语言的缔造者之一、大神 Russ Cox (rsc) 的一段往事。

在正则表达式的底层世界里，存在着两大流派：

基于回溯（Backtracking）的 NFA 引擎：代表人物是 PCRE（被 Python、Java、PHP 广泛使用）。
基于 Thompson NFA / DFA 的引擎：代表人物是 RE2（被 Go、Rust 采用）。

PCRE 引擎极快，它支持各种花里胡哨的语法（如前瞻断言 Lookaround、反向引用 Backreferences）。它的算法逻辑是“不撞南墙不回头”的深度优先搜索（DFS）。在匹配正常字符串时，它快如闪电。

但它有一个极其致命的死穴：ReDoS（正则表达式拒绝服务攻击）。

想象一下你写了一个看似无害的正则：

^([a-zA-Z0-9]+\s?)+$

如果黑客故意传入一个极其恶意的字符串：aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa!（注意最后的感叹号）。

PCRE 引擎会陷入可怕的“灾难性回溯”。它会尝试所有可能的组合，时间复杂度瞬间飙升到 O(2^n) 级。短短几十个字符的输入，能让单核 CPU 满载运行几年都算不出结果！

2019 年，互联网巨头 Cloudflare 就因为在 WAF 防火墙中写错了一个极其简单的正则表达式，CPU资源瞬间耗尽，导致全球80% 的通过 Cloudflare 代理的网站受到影响，陷入瘫痪长达 27 分钟。这就是 PCRE 回溯引擎的恐怖破坏力。

Russ Cox 在设计 Go 的 regexp 包时，定下了一条铁律：系统安全与可预测性，绝对高于单次请求的极限性能。

因此，Go 彻底抛弃了危险的回溯引擎，选择了基于 Thompson NFA 的算法（源自他之前在Google主导设计的 C++ RE2 引擎）。这种算法保证了匹配时间永远是线性复杂度 O(n)。

无论黑客传入多么恶意的字符串，Go 的正则引擎绝对不会发生灾难性回溯。它牺牲了在美好情况下的极致快感，换取了在极端恶劣环境下的金身不坏。

这算是 Go 团队最顶级的“克制”吧。

硬核剖析：Go 的正则，时间到底去哪了？

既然算法是 O(n) 的，为什么 Go 依然比同样采用 RE2/DFA 思想的 Rust 慢那么多呢？

如果你去追踪 Go 官方的 Issue #19629和Issue #11646，通过 pprof 分析 Go 正则匹配的 CPU 耗时，你会看到几个令人头疼的瓶颈：

1. 沉重的 UTF-8 解析税

Rust 和 C 的很多正则引擎，底层是直接在“字节（Byte）”级别游走的。而 Go 为了贯彻它对 Unicode 的原生支持，regexp 包在内部极其频繁地将输入流解码为 Rune（Go 的 Unicode 字符单位）。这种逐个解析 Rune 的操作，带来了巨大的计算开销。

2. NFA 虚拟线程的内存震荡

在 Go 的底层源码中，你可以看到耗时最高的两个函数是 (machine).add 和 (machine).step。

Go 是通过维护两个“状态队列（稀疏集）”来模拟 NFA 的并行推进的。每读取一个字符，引擎就要把所有可能的状态添加到下一个队列中。这导致了海量的内存重分配（Allocation）和切片拷贝。哪怕是匹配一个简单的长字符串，底层都在疯狂地挪动内存。

既然这么慢，为什么不把 C++ RE2 里那个极速的 DFA（确定性有限状态自动机）移植到 Go 里呢？

Issue #11646 记录了这次尝试。开发者 Michael Matloob 曾经试图将 RE2 的 DFA 移植过来，但被 Russ Cox 拦下了。原因很直接：DFA 虽然快，但它在运行时会动态生成大量的状态，如果不加以严格限制，极易引发内存耗尽（OOM）。在 Go 带有 GC 的内存模型下，频繁创建和销毁庞大的 DFA 状态缓存，会让垃圾回收器不堪重负。

于是，Go 的标准库在“安全、内存、性能”的三角博弈中，选择了妥协于现状。

社区的探索：SIMD 降维打击与 100倍加速的 coregex

官方的克制固然令人敬佩，但对于身处一线的业务开发者来说，由于正则太慢导致的 CPU 告警，是实实在在的痛点。

“既然官方不愿意改，那我们就自己造轮子！”

在近期的 Issue #26623 中，一位名为 kolkov 的开发者带着他的开源库 coregex 杀入了战场，向 Go 标准库发起了直接的挑战。

coregex 是一个完全用纯 Go 编写的正则库，它的出现直接将 Go 的正则性能拉到了与 Rust 并驾齐驱，甚至在某些场景下超越 Rust 的境地。

它是怎么做到的？它在底层祭出了几个大杀器：

SIMD 预过滤（Prefilters）：它使用了手写的汇编代码（AVX2/SSSE3 指令集），将正则中的静态字符串提取出来，利用 CPU 的向量化指令，一次性对比 32 个字节。像匹配 .*.txt 这种正则，速度直接飙升了 1500倍！
带缓存的 Lazy DFA：它绕过了标准库每次都重算 NFA 的毛病，在运行时动态构建 DFA 缓存，大幅消除了内存分配。
写时复制（COW）的捕获组：标准库在处理提取子串时会疯狂分配切片。coregex 通过切片状态共享，让内存分配直接减少了 50%。

在 kolkov 提供的 CI 跑分中，在 6MB 的输入下，coregex 处理邮箱、URI 的耗时仅为 1.5 毫秒，而标准库耗时高达 260 毫秒。足足快了 170 倍！

然而，这段极其硬核的改进，依然很难入Go团队法眼，更不用谈在短期内被合并进 Go 的标准库。

一方面，Go 官方目前正在推进自己的内建 SIMD 方案（Issue #73787），不想接入手写的汇编代码；另一方面，社区大牛 Ben Hoyt 在使用 coregex 时发现，如果开启 Longest() 模式（最长匹配模式），这个库的性能会发生严重退化。

这再次印证了标准库开发的残酷：在某几个特定场景下跑到全宇宙第一很容易，但要在一套 API 里无死角地兜底全世界所有的奇葩正则输入，难如登天。

在 Go 中写正则的正确姿势

大致了解了底层原理，回到日常开发中，我们该如何应对 Go 正则的性能瓶颈？作为高级 Go 开发者，请务必将以下三条军规刻在脑子里：

第一条：能不用正则，就坚决不用

如果你只是想检查字符串是否包含子串，或者进行简单的前后缀匹配，永远优先使用 strings.Contains()、strings.HasPrefix() 等内置函数。 它们底层有优化的实现，在这样简单场景下，速度是 regexp 包不可比拟的。

第二条：将编译前置，远离循环

如果你翻看新手代码，最常见的低级错误就是在 for 循环或者每次 HTTP 请求里调用 regexp.Compile()。

正则的编译过程（生成 NFA 字节码）极其消耗 CPU。请永远在全局变量或 init() 函数中使用 regexp.MustCompile()，将其编译好并复用。Go 的 Regexp 对象是并发安全的，随便多 Goroutine 调用。

第三条：在极端性能要求下，打破“洁癖”

如果你的核心业务（比如高频日志清洗、海量数据 ETL）确实被 regexp 卡住了脖子，不要硬抗。

你可以选择引入通过 CGO 调用 PCRE的Go binding库（比如https://github.com/GRbit/go-pcre），但要注意防范 ReDoS 攻击，或google/re2的Go binding(比如https://github.com/wasilibs/go-re2)，又或是在业务侧尝试社区的野路子 coregex。在生存面前，架构的“洁癖”是可以适当妥协的。

小结

“为什么 Go 的正则这么慢？”

这并非一个简单的工程失误。它是一道分水岭，隔开了“追求跑分好看的玩具代码”与“守护千万级并发集群的生产级设计”。

Russ Cox 宁愿忍受整个开源界的群嘲，也没有为了刷榜而去引入危险的回溯引擎。这或许就是 Go 语言能够成为云原生时代头部语言的原因：不盲目追求上限的巅峰，而是死死守住安全下限。

参考资料

https://www.reddit.com/r/golang/comments/1rr2evh/why_is_gos_regex_so_slow/
https://github.com/golang/go/issues/26623
https://github.com/golang/go/issues/19629
https://github.com/golang/go/issues/11646
https://swtch.com/~rsc/regexp/

今日互动探讨：

在你的日常开发中，有没有被由于“写了糟糕的正则表达式”而导致 CPU 飙升 100% 的惨痛经历？你又是如何排查和优化的？

欢迎在评论区分享你的血泪史

认知跃迁：读懂底层机制，才能看透系统架构的本质

从放弃 CGO 选择纯 Go 实现，到防范 ReDoS 采用 NFA，再到社区为了榨干 CPU 性能而引入 SIMD。Go 语言的每一个看似“不合理”的设计背后，都隐藏着深邃的系统级考量。

然而，令人遗憾的是，很多开发者写了五六年的 Go 代码，遇到性能瓶颈依然只能靠“瞎猜”和“重启”。他们对 Go 的内存逃逸、Goroutine 调度机制以及标准库的底层数据结构一无所知。

如果你渴望突破“熟练调包侠”的瓶颈，想要像 Russ Cox 这样的顶级大厂架构师一样，看透 Go 语言背后的底层逻辑，建立起自己坚不可摧的技术护城河——

我的极客时间专栏 《Tony Bai·Go语言进阶课》 正是为你量身定制。

在这 30+ 讲极其硬核的内容中，我不仅带你剥开语法糖，深挖 Goroutine 调度、Channel 哲学；更会带你全面吃透 Go 的工程化实践，把底层性能调优背后的逻辑一次性讲透。

目标只有一个：助你完成从“Go 熟练工”到“能做顶级架构决策的 Go 专家”的蜕变！

扫描下方二维码，加入专栏。不要用战术上的勤奋，掩盖战略上的懒惰。让我们一起用架构师的视角，重新认识 Go 语言。

还在为“复制粘贴喂AI”而烦恼？我的新专栏 《AI原生开发工作流实战》 将带你：

告别低效，重塑开发范式
驾驭AI Agent(Claude Code)，实现工作流自动化
从“AI使用者”进化为规范驱动开发的“工作流指挥家”

扫描下方二维码，开启你的AI原生开发之旅。

原「Gopher部落」已重装升级为「Go & AI 精进营」知识星球，快来加入星球，开启你的技术跃迁之旅吧！

我们致力于打造一个高品质的 Go 语言深度学习 与 AI 应用探索 平台。在这里，你将获得：

体系化 Go 核心进阶内容: 深入「Go原理课」、「Go进阶课」、「Go避坑课」等独家深度专栏，夯实你的 Go 内功。
前沿 Go+AI 实战赋能: 紧跟时代步伐，学习「Go+AI应用实战」、「Agent开发实战课」、「Agentic软件工程课」、「Claude Code开发工作流实战课」、「OpenClaw实战分享」等，掌握 AI 时代新技能。
星主 Tony Bai 亲自答疑: 遇到难题？星主第一时间为你深度解析，扫清学习障碍。
高活跃 Gopher 交流圈: 与众多优秀 Gopher 分享心得、讨论技术，碰撞思想火花。
独家资源与内容首发: 技术文章、课程更新、精选资源，第一时间触达。

衷心希望「Go & AI 精进营」能成为你学习、进步、交流的港湾。让我们在此相聚，享受技术精进的快乐！欢迎你的加入！

img{512x368}

商务合作方式：撰稿、出书、培训、在线课程、合伙创业、咨询、广告合作。如有需求，请扫描下方公众号二维码，与我私信联系。

老板花重金买了台 128 核服务器，我的 Go 程序反而变慢了？

三月 12, 2026
0 条评论

本文永久链接 – https://tonybai.com/2026/03/12/go-concurrency-scalability-issues-on-128-core-cpu

大家好，我是Tony Bai。

设想一个极其真实的职场场景：

你负责的 Go 核心微服务最近流量暴涨，CPU 频频告警。为了解决这个问题，老板大笔一挥，批了几十万预算，采购了最新一代的 128 核 256 线程的怪兽级服务器（比如 AMD EPYC 或 Intel 至强）。

你满心欢喜地把程序部署上去，期待着 QPS 翻倍、延迟减半的奇迹。

结果盯着监控面板，你傻眼了：核心数翻了 4 倍，但程序的吞吐量根本没有线性增长，甚至 P99 延迟还比以前在 32 核机器上时变高了！

老板拍着你的肩膀问：“这服务器是不是买亏了？”你满头大汗，不知道问题出在哪。

别慌，这可能真不是你代码写得烂。在 2026 年的今天，随着芯片制程逐渐逼近物理极限（2nm），单核性能基本停滞，硬件厂商只能疯狂“堆核心”。这就导致了一个在过去只有超算中心才会关心的底层概念，如同幽灵般降临到了每一个普通开发者头上——NUMA（非一致性内存访问）架构。

今天，我们就来拆解一下：为什么 Go 语言引以为傲的并发模型，在超多核时代开始“水土不服”？而 Go 核心团队，又打算在今年如何打赢这场史诗级的性能翻身仗？

Go 调度器的“间歇性失忆症”

在小几十核（比如 32 核及以内）的普通机器上，Go 的 GMP 调度模型（Goroutine – Processor – Machine）堪称完美。调度器会尽量让一个 Goroutine (G) 在同一个 Processor (P) 和同一个系统线程 (M) 上运行，以保证 CPU 缓存（L1/L2 Cache）的高命中率。

但在 128 核/256线程(Go眼中 NumCPU()返回 256)的庞然大物上，这种亲和性（Affinity）被极其残酷地撕裂了。

一个值得怀疑的原因是 GC（垃圾回收）带来的 STW（Stop The World）。

每次 GC 开始和结束时，世界都会短暂停止，所有的 P 都会被冻结。当几毫秒后世界重新启动时，Go 的调度器会得一种“失忆症”：它会把“复活”的 P 分配给任意空闲的 M。

这就好比你原本在工位 A 办公，桌上摆满了你需要的资料（CPU Cache 中的热数据）。突然老板喊停，重新洗牌，把你随机分配到了工位 B。你需要重新跨过大半个办公室去搬资料（导致极其严重的 Cache Miss）。

此外，GC 标记工作在 STW 期间启动，并以高优先级调度，这使得它们很可能在之前运行 G 的 P 上运行，即使有空闲的 P。这会迫使 G 迁移到另一个 P 上。

如果你打开 Go 的 Execution Trace，你会看到一幅灾难般的景象：短短 10 毫秒内，你的 Goroutine 就像弹珠一样，在 128 个 CPU 核心之间来回横跳(下面是一个开发者在真实环境采集到的数据, G11到G19在多个P上切换)。微秒级的跳跃积累起来，就成了吞噬性能的黑洞。

NUMA 架构下的双倍“跨省流量”惩罚

如果说缓存失效是“切肤之痛”，那么NUMA 架构带来的内存惩罚，就是真正的“断骨之痛”。

在 128 核这种级别的 CPU 里，物理内存是被划分成多个“大区（NUMA Node，简称Node，每个Node通常有16到64个CPU核）”的。

CPU 访问自己大区的内存，极快。
CPU 跨大区去访问别人的内存（Remote Node），延迟会瞬间飙升 2 倍甚至更多！

但问题是，目前的 Go 语言是“非 NUMA 感知”的！

当你的代码执行 new(struct) 申请内存时，Go 的全局自由列表（Global Free List）完全可能把一块物理位置位于 Node 1 的内存，分配给正在 Node 0 上运行的 CPU。结果就是，你之后的每一次内存读写，都在交高昂的“跨省长途费”。

更要命的是 Go 引以为傲的“工作窃取（Work-Stealing）”算法。

当某个 CPU 核心闲下来时，它会去偷别的核心队列里的 Goroutine 来执行。这在以前是神来之笔，但在 NUMA 时代却成了毒药：

它把任务偷了过来，但任务对应的数据还留在原来的 NUMA 节点上！这就好比你抢了别人的砖头搬，但你每次都得跨越一整个城市去拿砖。

面对 2 倍以上的内存访问物理延迟，你写再多牛逼的设计模式，也无济于事。

针对上述问题，Go 1.25 和 1.26 已带来部分改进（容器感知的 GOMAXPROCS、Green Tea GC），NUMA 感知的内存分配等更深层优化仍在 Go 1.27以及后续版本的规划中。

2026 年，Go 团队的破局之战

面对这台越来越难以驾驭的硬件巨兽，Go 核心团队当然没有坐以待毙。在 Go 的官方 issue（#65694, #78044）中，核心成员 Michael Pratt 已经明确表态：解决超高核数和 NUMA 下的性能瓶颈，是今年 Go 团队的头等任务之一。

我们即将看到 Go 团队打出的几记重拳：

修复“失忆症”（强化亲和性锁链）

就在去年10月份，Go 团队合并了一个关键的底层补丁（CL 714801）。现在，STW 结束后，runtime 会拼命尝试将 P 重新分配给它在 STW 之前绑定的那个 M。把你牢牢按在原来的工位上，死死护住你的 CPU Cache。

驯服 GC 抢占（减少驱逐）

新的调度逻辑将尽量避免 GC worker “鸠占鹊巢”，强行驱逐正在运行业务逻辑的 Goroutine，保证业务代码执行环境的连贯性。

探索 NUMA 感知的内存分配（软性偏好）

这是目前最艰难但也最激动人心的探索。未来的 Go 有望实现：优先在本地 NUMA 节点分配内存；工作窃取时，优先偷取同一个 NUMA 节点内的任务。彻底斩断无意义的“跨省流量”。

小结：云原生开发者的自我修养

在摩尔定律彻底失效的今天，硬件发展的路线图已经极其明确：单核停滞，核心数将向 256 核、512 核无限狂飙。

这给我们所有 Go 开发者敲响了警钟：

在极致的性能调优面前，我们不能再仅仅满足于写出“业务正确”的代码，更要理解你的代码在真实硬件和操作系统上的物理足迹。

在 Go 1.27 或 Go 1.28 带来这些“性能怪兽级优化”落地之前，如果你发现你的高并发服务在顶级服务器上性能退化，请记住今天这篇文章：

不要急着改代码，先用 top 和 numastat 查一下你的 NUMA 命中率。
极端延迟敏感的场景下，可以临时考虑使用 runtime.LockOSThread() 或利用 cgroups 将进程绑定在特定的 NUMA 节点上运行。

打破对“加机器就能解决一切”的迷信，这是从初级码农走向资深架构师的必经之路。

参考资料

https://github.com/golang/go/issues/65694
https://github.com/golang/go/issues/78044

今日互动探讨：

你在生产环境中，遇到过哪些“加了机器/加了配置，性能反而变差”的诡异玄学事件？后来是怎么排查破解的？

欢迎在评论区分享你的血泪排查史！

还在为“复制粘贴喂AI”而烦恼？我的新专栏 《AI原生开发工作流实战》 将带你：

告别低效，重塑开发范式
驾驭AI Agent(Claude Code)，实现工作流自动化
从“AI使用者”进化为规范驱动开发的“工作流指挥家”

扫描下方二维码，开启你的AI原生开发之旅。

你的Go技能，是否也卡在了“熟练”到“精通”的瓶颈期？

想写出更地道、更健壮的Go代码，却总在细节上踩坑？
渴望提升软件设计能力，驾驭复杂Go项目却缺乏章法？
想打造生产级的Go服务，却在工程化实践中屡屡受挫？

继《Go语言第一课》后，我的《Go语言进阶课》终于在极客时间与大家见面了！

我的全新极客时间专栏《Tony Bai·Go语言进阶课》就是为这样的你量身打造！30+讲硬核内容，带你夯实语法认知，提升设计思维，锻造工程实践能力，更有实战项目串讲。

目标只有一个：助你完成从“Go熟练工”到“Go专家”的蜕变！现在就加入，让你的Go技能再上一个新台阶！

原「Gopher部落」已重装升级为「Go & AI 精进营」知识星球，快来加入星球，开启你的技术跃迁之旅吧！

我们致力于打造一个高品质的 Go 语言深度学习 与 AI 应用探索 平台。在这里，你将获得：

体系化 Go 核心进阶内容: 深入「Go原理课」、「Go进阶课」、「Go避坑课」等独家深度专栏，夯实你的 Go 内功。
前沿 Go+AI 实战赋能: 紧跟时代步伐，学习「Go+AI应用实战」、「Agent开发实战课」、「Agentic软件工程课」、「Claude Code开发工作流实战课」、「OpenClaw实战分享」等，掌握 AI 时代新技能。
星主 Tony Bai 亲自答疑: 遇到难题？星主第一时间为你深度解析，扫清学习障碍。
高活跃 Gopher 交流圈: 与众多优秀 Gopher 分享心得、讨论技术，碰撞思想火花。
独家资源与内容首发: 技术文章、课程更新、精选资源，第一时间触达。

衷心希望「Go & AI 精进营」能成为你学习、进步、交流的港湾。让我们在此相聚，享受技术精进的快乐！欢迎你的加入！

img{512x368}

商务合作方式：撰稿、出书、培训、在线课程、合伙创业、咨询、广告合作。如有需求，请扫描下方公众号二维码，与我私信联系。