runtime - Tony Bai

本文永久链接 – https://tonybai.com/2026/01/01/go-archaeology-porting-policy

大家好，我是Tony Bai。

当我们津津乐道于 Go 语言强大的跨平台编译能力——只需一个 GOOS=linux GOARCH=amd64 就能在 Mac 上编译出 Linux Go程序时，你是否想过，这些操作系统和 CPU 架构的组合（Port）是如何被选入 Go 核心代码库的？

为什么 linux/amd64 稳如泰山，而 darwin/386 却消失在历史长河中？为什么新兴的 linux/riscv64 或 linux/loong64 能被接纳？

这一切的背后，都遵循着一份严谨的 Go Porting Policy。今天，我们就来翻开这份“法典”，一探究竟。

什么是“Port”？

在 Go 的语境下，一个 Port 指的是 操作系统 (OS) 与 处理器架构 (Architecture) 的特定组合。例如：

linux/amd64：运行在 64 位 x86 处理器上的 Linux。
windows/arm64：运行在 ARM64 处理器上的 Windows。

每一个 Port 的引入，都意味着 Go 编译器后端需要生成对应的机器码，运行时（Runtime）需要处理特定的系统调用、内存管理和线程调度。这是一项巨大的工程。

等级森严：First-Class Ports (一等公民)

Go 官方将 Ports 分为两类，这并非歧视，而是基于稳定性承诺和维护成本的考量。

First-Class Ports 是 Go 官方（Google Go Team）承诺全力支持的平台。它们享有最高级别的待遇，也承担着最重的责任：

阻断发布 (Block Releases)：如果任何一个 First-Class Port 的构建或测试失败，Go 的新版本（包括 Beta 和 RC）就绝对不会发布。
官方兜底：Google 的 Go 团队负责维护这些平台的构建机器（Builder），并对任何破坏这些平台的代码变更负责。

目前的 First-Class Ports 名单（极少，只有核心的几个）：
* linux/amd64, linux/386, linux/arm, linux/arm64
* darwin/amd64, darwin/arm64 (macOS)
* windows/amd64, windows/386

冷知识：Linux 下只有使用 glibc 的系统才算 First-Class。使用 musl (如 Alpine Linux) 的并不在这个名单里，虽然它们通常也能工作得很好。

社区的力量：Secondary Ports (次要组合)

除了上述几个“亲儿子”，Go 支持的几十种其他平台（如 freebsd/*, openbsd/*, netbsd/*, aix/*, illumos/*, plan9/*, js/wasm 等）都属于 Secondary Ports。

它们的生存法则完全不同：

社区维护制：必须至少有两名活跃的社区开发者签名画押，承诺维护这个 Port。
不阻碍发布：如果一个次要 Port 的构建挂了，Go 官方不会为了它推迟版本发布。它可能会在 Release Note 中被标记为“Broken”甚至“Unsupported”。
自备干粮：维护者必须提供并维护构建机器，接入 Go 的 CI 系统。

这意味着，如果你想让 Go 支持一个冷门的嵌入式系统，你不仅要贡献代码，还得长期确保持续集成（CI）是绿的。

优胜劣汰：如何新增与移除？

新增一个 Port

想让 Go 支持一个新的芯片架构（比如龙芯 LoongArch）？流程是严格的：

提交 Proposal：论证这个 Port 的价值（潜在用户量）与维护成本的平衡。
找人：指定至少两名维护者。
先行：可以在 x/sys 库中先行验证对新Port系统调用的支持，甚至在构建机器跑通之前，代码不能合入主分支。

移除一个 Port (Broken Ports)

Go 不会无限制地背负历史包袱。一个 Port 如果满足以下条件，可能会被移除：

构建失败且无人修：如果一个 Secondary Port 长期构建失败，且维护者失联，它会被标记为 Broken。如果在下一个大版本（1.N+1）发布前还没修好，就会被移除。
硬件消亡：如果硬件都停产了（例如 IBM POWER5），Go 也没必要支持了。
厂商放弃：如果 OS 厂商都不支持了（例如老版本的 macOS），Go 也会跟随弃用。

这就是为什么 Go 在某个版本后不再支持 Windows XP 或 macOS 10.12 的原因——为了让有限的开发资源聚焦在更广泛使用的系统上。

小结

Go 的 Porting Policy 展示了一个成熟开源项目的治理智慧：核心聚焦，边界开放，权责对等。

它保证了 Go 在主流平台上的坚如磐石，同时也通过社区机制，让 Go 的触角延伸到了无数小众和新兴的领域。下次当你为一个冷门平台编译 Go 程序成功时，别忘了感谢那些默默维护 Builder 的社区志愿者们。

参考资料：https://go.dev/wiki/PortingPolicy

还在为“复制粘贴喂AI”而烦恼？我的新专栏 《AI原生开发工作流实战》 将带你：

告别低效，重塑开发范式
驾驭AI Agent(Claude Code)，实现工作流自动化
从“AI使用者”进化为规范驱动开发的“工作流指挥家”

扫描下方二维码，开启你的AI原生开发之旅。

你的Go技能，是否也卡在了“熟练”到“精通”的瓶颈期？

想写出更地道、更健壮的Go代码，却总在细节上踩坑？
渴望提升软件设计能力，驾驭复杂Go项目却缺乏章法？
想打造生产级的Go服务，却在工程化实践中屡屡受挫？

继《Go语言第一课》后，我的《Go语言进阶课》终于在极客时间与大家见面了！

我的全新极客时间专栏《Tony Bai·Go语言进阶课》就是为这样的你量身打造！30+讲硬核内容，带你夯实语法认知，提升设计思维，锻造工程实践能力，更有实战项目串讲。

目标只有一个：助你完成从“Go熟练工”到“Go专家”的蜕变！现在就加入，让你的Go技能再上一个新台阶！

商务合作方式：撰稿、出书、培训、在线课程、合伙创业、咨询、广告合作。如有需求，请扫描下方公众号二维码，与我私信联系。

本文永久链接 – https://tonybai.com/2025/11/20/proposal-improve-goroutine-stack-using-page-faults

大家好，我是Tony Bai。

Go 语言的 goroutine 以其轻量和高效著称，而其背后一个关键的“魔法”便是可动态增长的栈 (Resizable Stacks)。然而，支撑这个魔法的机制——在几乎每个函数入口处插入的“栈检查”指令——也并非毫无代价。

近日，在 golang-nuts 邮件组，一位名叫 Arseny Samoylov 的年轻开发者发起了一场引人深思的讨论，提出了一个颇具“革命性”的提案：我们能否借鉴 Linux 内核管理线程栈的方式，用“缺页中断”(Page Faults) 机制来取代 Go 现有的“栈检查”？

这个旨在挑战 Go 运行时基石的大胆设想，引来了 Go 语言联合创始人 Rob Pike 的亲自下场。本文中，我们就来简单看看这个看似优雅的提案，为何会引来社区的质疑，并最终被 Rob Pike 本人以“实现过于复杂”为由，泼上一盆“冷水”。

现状的“痛点”——无处不在的“栈检查”

在深入新提案之前，我们必须先理解 Go 当前的栈增长机制及其代价。

当前，Go 编译器会在几乎每一个非叶子函数的序言 (prologue) 部分，插入几条特殊的指令。这些指令的作用是在函数开始执行前，检查当前 goroutine 的剩余栈空间是否足够。如果不足，运行时 (runtime.morestack) 就会介入：分配一个更大的新栈，将旧栈的内容复制过去，调整所有指向栈上变量的指针，然后才继续执行函数。

提案者指出的当前机制的两大痛点：

CPU 开销：频繁的栈检查本身就是一种 CPU 开销，尤其是在调用链很深或存在大量无法内联的间接调用（如接口方法调用）时。
代码体积膨胀：每个函数都增加了额外的序言指令（提案者估计约 10 条指令），这会增加 L1 指令缓存 (L1i Cache) 的压力，对计算密集型任务的性能产生负面影响。

基于此，提案者估计，消除栈检查可能会为真实的 Go 应用带来 3% – 5% 的性能提升。

“革命”的设想——通过“缺页中断”实现栈增长

Arseny Samoylov 的提案，其灵感源自现代操作系统（如 Linux）管理原生线程栈的方式。

核心思想：

在创建一个 goroutine 时，不再只分配一个很小的物理内存（当前为 2KB），而是为其预留 (reserve) 一大块虚拟地址空间（例如 8MB），但不立即分配物理内存。
在这块虚拟地址空间的末尾，设置一个“警戒页”(Guard Page)，标记为不可访问。
移除编译器插入的所有“栈检查”指令。
当 goroutine 的栈增长，触及到未分配的内存页时，会触发一次缺页中断 (Page Fault)。操作系统内核会捕获这个中断，并“懒惰地”为其分配一页新的物理内存。
当 goroutine 的栈增长到极致，最终触及到那个“警戒页”时，Go 运行时捕获这个特定的信号，此时才执行现有的栈扩容逻辑。

这个设计的精妙之处在于，它将持续的、遍布每个函数的“栈检查”开销，转变成了仅在栈空间真正耗尽时才发生的一次性、代价较高的“异常处理”。

社区的讨论——一场关于性能、复杂性与可行性的权衡

这个看似优雅的方案，立刻引发了社区开发者的辩论。经验丰富的工程师们很快指出了这个方案背后隐藏的巨大挑战：

中断处理的巨大开销：Jason E. Aten 指出，处理一次缺页中断并由信号处理器接管，其过程极其缓慢。它涉及至少 4 次昂贵的上下文切换（用户态 -> 内核态 -> 信号处理器 -> 内核态 -> 用户态）。这个开销，可能远高于 Go 运行时目前高效的内存分配器。
区分“好”与“坏”的中断：Go 运行时如何能精确地区分出，一次缺页中断是因为“栈需要正常增长”，还是因为一个真正的 Bug（如 nil 指针解引用）？这是一个极其棘手的问题。
虚拟地址空间的消耗：虽然 64 位系统的虚拟地址空间极其巨大，但为每一个 goroutine 都预留 8MB，依然是一个不小的负担。10 万个 goroutine 将消耗 800GB 的虚拟地址空间。
最小栈的增加：最小的物理内存分配单位是一个页（通常是 4KB）。这意味着 goroutine 的最小栈大小将从 2KB 翻倍到 4KB，对于那些拥有数百万个小 goroutine 的应用，这可能会导致物理内存消耗翻倍。