软件工程 - Tony Bai

本文永久链接 – https://tonybai.com/2025/06/26/non-deterministic-abstraction

大家好，我是Tony Bai。

在软件开发领域，Martin Fowler 的名字几乎等同于思想的灯塔。他的每一篇文章、每一次演讲，都能为我们揭示行业发展的深层脉络。最近，Fowler 大师又发布了一篇简短但引人深思的博文——《LLMs bring new nature of abstraction》，再次精准地捕捉到了一个正在发生的、可能颠覆我们认知和工作方式的巨大变革。

Fowler 认为，大型语言模型（LLM）的出现，对软件开发的影响，堪比从汇编语言到首批高级编程语言（HLLs）的飞跃。但关键在于，LLM 带来的不仅仅是又一个“更高层次”的抽象，它正在从根本上改变编程的“本质”——迫使我们思考，用“非确定性工具”进行编程究竟意味着什么。

在这篇文章中，我们就来简单解读一下。

从“确定性”的阶梯到“非确定性”的岔路

回顾编程语言的发展史，我们一直在追求更高层次的抽象，以提升生产力、降低复杂度：

汇编语言 vs. 机器指令： 汇编让我们用助记符替代了 0 和 1，但仍需关注特定机器的寄存器和指令集。
高级语言 (HLLs) vs. 汇编： Fortran、COBOL 等早期 HLLs 让我们能用语句、条件、循环来思考，而不用关心数据如何在寄存器间移动。Fowler 回忆道，他用 Fortran IV 编程时，虽然有诸多限制（如 IF 没有 ELSE，整数变量名必须以 I-N 开头），但这已经是巨大的进步。
现代语言、框架、DSL vs. 早期 HLLs： Ruby、Go、Python 等现代语言，以及各种框架和领域特定语言（DSL），进一步提升了抽象层次。我们现在可以本能地将函数作为数据传递，使用丰富的库和模式，而不用从头编写大量底层代码。

Fowler 指出，尽管这些发展极大地提升了抽象层次和生产力，但它们并没有从根本上改变“编程的性质”。我们仍然是在与机器进行一种“确定性”的对话：给定相同的输入和代码，我们期望得到相同的输出。错误（Bug）也是可复现的。

然而，LLM 的介入，打破了这一基本假设。

Fowler 写道：“用提示词与机器对话，其差异之大，犹如 Ruby 之于 Fortran，Fortran 之于汇编”。

更重要的是，这不仅仅是抽象层次的巨大飞跃。当 Fowler 用 Fortran 写一个函数，他可以编译一百次，结果中的 Bug 依然是那个 Bug。但 LLM 引入的是一种“非确定性”的抽象 (non-deterministic abstraction)。

这意味着，即使我们把精心设计的 Prompt 存储在 Git 中，也不能保证每次运行都会得到完全相同的行为。正如他的同事 Birgitta Böckeler 精辟总结的那样：

我们并非仅仅在抽象层级上“向上”移动，我们同时也在“横向”移入非确定性的领域。

Fowler 文章中的配图非常形象地展示了这一点：传统的编程语言、编译器、字节码是一条清晰的、自上而下的抽象路径；而模型/DSL、代码生成器、低代码、框架是其上的不同抽象层次。自然语言（通过 LLM）则像一条从旁边切入的、直接通往“半结构化/接近人类思维”的道路，这条路本身就带有模糊和不确定性。

“非确定性”编程时代的挑战与启示

这种“非确定性”的本质，对我们 Gopher，乃至所有软件开发者，都带来了前所未有的挑战和需要重新思考的问题：

版本控制与可复现性： 当 Prompt 不能保证结果一致时，我们如何管理和版本化我们的“AI辅助代码”？如何确保开发、测试、生产环境的一致性，或者至少是可接受的差异性？仅仅版本化 Prompt 可能不够，我们还需要版本化模型、参数（如 temperature）甚至是一些关键的种子（seed）吗？
测试与调试： 如何测试一个输出不完全固定的“组件”？传统的单元测试、集成测试方法是否依然有效？我们可能需要引入新的测试策略，例如基于属性的测试、对输出结果的统计验证、或者更侧重于行为和意图的验证。当 LLM 生成的代码出现问题，调试的难度是否会指数级增加？
可靠性与契约： 在一个包含非确定性AI组件的系统中，如何定义和保证整体的可靠性？服务间的“契约”又该如何描述和强制执行？
思维模式的转变： 我们习惯了对代码的精确控制，追求逻辑的严密和行为的可预测。现在，我们可能需要学会与“模糊”和“概率”共存，从“指令下达者”转变为“意图沟通者”和“结果筛选者”。

这对我们 Gopher 意味着什么？

Go 语言以其明确性、强类型、简洁的并发模型以及相对可预测的行为，深受开发者喜爱。当我们尝试将 LLM 融入 Go 的生态和开发流程时，这些“非确定性”的特性会带来新的思考：

AI 生成 Go 代码： 当我们使用 LLM 生成 Go 代码片段、单元测试，甚至整个模块时，如何确保生成的代码符合 Go 的最佳实践、是高效且安全的？如何对生成的代码进行有效的审查和集成？
用 Go 构建与 LLM 交互的工具/Agent： 如果我们用 Go 开发与 LLM 交互的后端服务或智能体（Agent），我们需要在架构设计上充分考虑 LLM 的非确定性，设计更鲁棒的错误处理、重试机制，以及对 LLM 输出结果的验证和筛选逻辑。
利用 LLM 理解复杂 Go 系统： LLM 或许能帮助我们理解遗留的复杂 Go 代码库，但其解释的准确性和一致性也需要我们审慎评估。

Fowler 在文末表达了他对这一变革的兴奋之情：“这种改变是戏剧性的，也让我颇为兴奋。我相信我会为一些失去的东西感到悲伤，但我们也将获得一些我们中很少有人能理解的东西。”

小结：拥抱不确定，探索新大陆

Martin Fowler 的这篇文章，为我们揭示了 LLM 时代编程范式可能发生的深刻转变。它不再仅仅是工具的进化，更是与机器协作方式的本质性变革。

作为 Gopher，作为软件工程师，我们需要开始认真思考这种“非确定性”带来的影响，积极探索与之共存、甚至利用其特性创造价值的新方法。这无疑是一个充满挑战但也充满机遇的新大陆。

你如何看待 Fowler 的这个观点？你认为 LLM 带来的“非确定性”会对你的日常开发工作产生哪些具体影响？欢迎在评论区分享你的看法！

你的Go技能，是否也卡在了“熟练”到“精通”的瓶颈期？

想写出更地道、更健壮的Go代码，却总在细节上踩坑？
渴望提升软件设计能力，驾驭复杂Go项目却缺乏章法？
想打造生产级的Go服务，却在工程化实践中屡屡受挫？

继《Go语言第一课》后，我的《Go语言进阶课》终于在极客时间与大家见面了！

我的全新极客时间专栏《Tony Bai·Go语言进阶课》就是为这样的你量身打造！30+讲硬核内容，带你夯实语法认知，提升设计思维，锻造工程实践能力，更有实战项目串讲。

目标只有一个：助你完成从“Go熟练工”到“Go专家”的蜕变！现在就加入，让你的Go技能再上一个新台阶！

商务合作方式：撰稿、出书、培训、在线课程、合伙创业、咨询、广告合作。如有需求，请扫描下方公众号二维码，与我私信联系。

本文永久链接 – https://tonybai.com/2025/06/16/go-avoid-critical-incident

大家好，我是Tony Bai。

科技圈的每一次“风吹草动”，尤其是大型云服务的故障，总能引发我们技术人无数的讨论与反思。最近，一则关于“Google Cloud Platform (GCP) Service Control 在 2025 年 6 月发生重大故障”的消息，及其事后分析报告中直指的“null pointer crash loop”，在技术社区掀起了不小的波澜。

故障报告中还提到了几个雪上加霜的因素：没有特性标志 (Feature Flags) 进行高风险部署、缺乏优雅的错误处理（二进制文件直接崩溃而非优雅降级）、以及没有回退机制导致系统过载。

考虑到 Go 语言在 Google 内部（如 Kubernetes, Cloud Run 等）以及整个云原生领域的广泛应用，一个自然而然的疑问浮出水面：Go语言是否是这次 GCP 故障的“元凶”？或者说，Go 的某些特性，是否在某种程度上“助长”了这类问题的发生？反过来，Go 的设计又是否本可以帮助避免这样的灾难？

这这篇文章中，我们就结合社区的智慧，从Go语言特性和更广泛的软件工程实践角度，来剖析一下这类故障背后的深层原因。这不仅是对一个故障的假想复盘，更是对我们日常开发实践的一次警醒。

Go 语言特性：是“防火墙”还是“导火索”？

社区论坛上的讨论，首先就聚焦在了 Go 语言本身的一些特性上。

显式错误返回 (if err != nil)：万无一失还是“防君子不防小人”？

有开发者认为，Go 标志性的显式错误返回设计（即函数返回 (value, error)，调用者必须检查 err），本应是避免错误的有力武器。但也有观点指出，这种模式的“简洁性”（或者说，可以通过 _ 忽略错误的便利性）有时反而可能在项目压力大、追求快速上线时，被开发者有意或无意地跳过，导致潜在的错误处理缺失。比如常见的 value, _ := someFunction() 写法。

Go的显式错误返回，确实为构建健壮软件提供了坚实的基础。它将错误视为一等公民，迫使开发者直面错误处理。但语言提供的机制，终究不能替代开发者的责任心和良好的编码习惯。正如有些开发者提到的，golangci-lint 这样的静态检查工具可以有效地发现未检查的错误，但这需要团队将其融入开发流程并严格执行。**语言设计提供了“防火墙”，但工程师的素养和流程的完备性，才是决定防火墙是否真正起作用的关键。

Nil Pointer Panic：Go 也难逃的“魔爪”？

针对报告中提到的“null pointer crash loop”，许多评论者指出，nil 指针 panic 在 Go 中也并非罕见。Go 语言本身允许指针存在，也允许指针为 nil，并且不像 Rust 的 Option/Result 类型或 C# 的可空引用类型那样，在语言层面强制开发者处理潜在的 nil 情况。

的确，Go 语言的设计哲学是简洁，它相信开发者有能力正确处理指针。避免 nil panic 的核心在于良好的编码实践：防御性编程（在使用指针前进行检查）、最小化指针使用（Go 鼓励值传递，许多场景可以完全避免指针）、以及充分的测试（特别是边界条件和异常路径）。虽然 Go 没有语言层面的强制 nil 检查，但其简洁性也使得这类检查的成本相对较低。

panic/recover 机制：救命稻草还是饮鸩止渴？

有开发者分享经验，倾向于用 panic/recover 包裹所有核心逻辑，试图捕获所有潜在的运行时崩溃。但针对像故障中提到的 Service Control 这样的有状态、高关键性的系统，这种做法也引发了质疑：recover 后的程序状态是否真的可靠？强行“续命”一个可能已处于不一致状态的进程，是否比让它快速失败并由外部监控系统（如 Kubernetes）重启更安全？关于这个问题，我曾在《“这代码迟早出事！”——复盘线上问题：六个让你头痛的Go编码坏味道》一文中也讨论过。

panic/recover 在 Go 中有其特定的适用场景，例如在库的边界将内部的 panic 转换为 error 返回给调用者，或者处理真正意外且难以通过常规错误处理覆盖的严重问题。但对于关键业务服务，尤其是有状态的服务，“fail fast” 依然是目前社区认为的更可取的设计。让服务在遇到严重内部错误时快速、干净地退出，依赖外部的健康检查和自动重启机制来恢复服务，往往比试图在不确定的状态下继续运行更稳妥。

这样来看，Go 语言的设计，如显式错误处理，确实为构建可靠系统提供了工具。但它并不提供“银弹”，也不能完全消除诸如 nil 指针解引用这类逻辑错误的可能性。语言特性是基础，但绝非全部。

超越语言：流程、测试与工程文化的“灵魂拷问”

在针对该故障的讨论中，一个压倒性的共识是：这类大型系统故障，往往更多是软件工程流程、测试策略和工程文化上的问题，而非单一语言设计所能左右。

“100% 测试覆盖率”的迷思与测试策略的缺位

有开发者提出“你可以覆盖 100% 的代码行，但你永远无法覆盖 100% 的输入和状态组合。” 这句话一针见血。过度迷信行覆盖率，而忽略了测试的深度和广度，是许多团队的通病。

那么真正有效的测试策略应该是什么呢？显然单一的测试策略是无法保证程序上线后的质量的。下面是几种常见的测试策略：

单元测试 (Unit Testing): 验证开发者对代码单元在预期输入下的行为。
模糊测试 (Fuzz Testing): 通过自动生成大量随机或变异输入，探索代码的边缘情况和未知缺陷。Go 1.18 已将 Fuzz Testing 内置到标准工具链中，这是一个强大的武器。
集成测试 (Integration Testing): 验证模块间的交互。
端到端测试 (End-to-End Testing): 模拟真实用户场景。
生产测试/灰度发布 (Staged Rollouts / Canary Releases): 在真实生产环境中，小范围、逐步地验证变更的可靠性，这是大型系统发布的“金丝雀”。

这些策略显而易见，但又有多少团队能真正全面的做到呢？

特性标志 (Feature Flags)：高风险变更的“安全阀”

故障报告中提到了“没有特性标志进行风险部署”，这几乎是大型系统发布的“大忌”。特性标志允许团队在不重新部署代码的情况下，动态地开启或关闭某项功能，从而：

安全地进行 A/B 测试。
逐步向用户灰度上线新功能，控制风险。
在出现问题时，能够快速关闭故障功能，实现秒级“回滚”（功能层面）。

缺乏特性标志，意味着任何高风险的变更都像是在“裸奔”。

优雅降级与回滚预案：Plan B 的重要性

系统出错在所难免，关键在于出错后如何表现。故障报告中“二进制崩溃而非优雅降级”以及“没有随机回退导致过载”，都指向了系统鲁棒性的缺失。

优雅降级: 当核心服务出现问题时，非关键功能是否可以降级服务，保证核心可用性？例如，推荐系统不可用时，是否可以展示默认热门内容，而不是整个页面崩溃？
回滚计划: 任何部署都应该有明确、经过演练的回滚计划。出现问题时，能否快速、安全地回退到上一个稳定版本？

代码审查、自动化工具与工程文化

严格的代码审查: 是发现逻辑错误、不规范写法（如忽略错误、滥用指针）的重要手段。
静态分析与 Linter：golangci-lint 等工具可以自动化地检查出大量潜在问题，包括未处理的错误、不安全的并发操作等。但正如有些开发者在评论中所言，“linters can be disabled”，关键还是在于流程的执行。
警惕“Vibe Coding”：有开发者犀利地指出“Garbage in, garbage out”。如果团队强依赖AI的“氛围”编码，而缺乏对生成代码的审查，那么无论用什么语言，都可能埋下隐患。
重视流程而非迷信工具：许多评论都强调，即使有再好的语言特性或工具，如果缺乏健全的开发、测试、部署流程，以及对质量负责的工程文化，故障依然难以避免。

AI 辅助编程：是“帮手”还是新的“风险源”？

一个有趣的衍生讨论是关于 AI 辅助编程（如 GitHub Copilot、Google Gemini Code Assist）在其中的角色。

有开发者提到，Google 内部已有大量代码由 Gemini 生成。也有人分享使用 AI 辅助编程的体验，认为其在作为“结对编程伙伴”或“辅助搜索”时有价值，但完全自动生成的代码质量参差不齐，有时甚至会引入“幻觉”和新的 bug。

AI 辅助编程无疑是未来的趋势，它有可能提高开发效率，辅助开发者处理重复性工作。但目前来看，AI 生成的代码更需要、而不是更不需要人类的严格审查和充分测试。将 AI 视为一个能提供建议、加速编码的助手是合适的，但如果过度依赖，甚至将其生成的代码不经审视直接合入生产，那无异于引入了新的、更不可控的风险源。特别是在错误处理、并发安全、边界条件这些需要深度思考的领域，AI至少目前还难以完全替代经验丰富的工程师，尤其是一些mission critical的系统中。不要被那些用AI生成一个简单工具站的“AI战果”所迷惑。

小节：语言是利器，工程实践才是灵魂

回到最初的问题：GCP Service Control 的这次故障，Go 语言是“元凶”还是“背锅侠”？

从社区的讨论和我们的分析来看，将板子完全打在 Go 语言身上，显然是有失公允的。Go 语言的设计，如其显式错误处理、简洁性带来的高可读性、以及强大的并发能力，都为构建健壮、高效的系统提供了良好的基础。

然而，语言终究只是工具，它不能替代健全的软件工程流程和严谨的工程文化。 此次 GCP 故障所暴露出的问题——无论是可能的 nil 指针解引用，还是更宏观的缺乏特性标志、部署策略失当、错误处理不优雅——更多地指向了在测试、部署、风险控制、质量保障等一系列工程实践环节可能存在的缺失。

对于我们 Go 开发者而言，这次事件给我们带来的启示应该是：

充分利用 Go 的优势： 写出符合 Go 惯例的、清晰的错误处理逻辑；审慎使用指针，做好 nil 检查；发挥 Go 并发模型的威力。
拥抱并严格执行工程最佳实践： 将单元测试、集成测试、模糊测试落到实处；在重要变更上线时，务必使用特性标志和灰度发布策略；建立严格的代码审查机制；利用好静态分析工具。
对 AI 保持理性： 善用 AI 辅助工具提高效率，但绝不能放松对代码质量的把控和人工审查的力度。

最终，构建一个真正高可用、高可靠的大型系统，依赖的绝不仅仅是选择一门“好”的语言，更在于整个团队对卓越工程实践的持续追求和严格执行。

你对这次讨论有什么看法？或者在你的 Go 项目中，是如何保障系统稳定性的？欢迎在评论区留下你的宝贵经验！

精进有道，更上层楼

极客时间《Go语言进阶课》上架刚好一个月，受到了各位读者的热烈欢迎和反馈。在这里感谢大家的支持。目前我们已经完成了课程模块一『语法强化篇』的 13 讲，为你系统突破 Go 语言的语法认知瓶颈，打下坚实基础。

现在，我们即将进入模块二『设计先行篇』，这不仅包括 API 设计，更涵盖了项目布局、包设计、并发设计、接口设计、错误处理设计等构建高质>量 Go 代码的关键要素。

这门进阶课程，是我多年 Go 实战经验和深度思考的结晶，旨在帮助你突破瓶颈，从“会用 Go”迈向“精通 Go”，真正驾驭 Go 语言，编写出更优雅、
更高效、更可靠的生产级代码！

扫描下方二维码，立即开启你的 Go 语言进阶之旅！

感谢阅读！

如果这篇文章让你对Go语言有了新的认识，请帮忙转发，让更多朋友一起学习和进步！

商务合作方式：撰稿、出书、培训、在线课程、合伙创业、咨询、广告合作。如有需求，请扫描下方公众号二维码，与我私信联系。

标签软件工程下的文章

Martin Fowler最新洞察：LLM 不止是“更高”的抽象，它正在改变编程的“本质”！

从“确定性”的阶梯到“非确定性”的岔路

“非确定性”编程时代的挑战与启示

这对我们 Gopher 意味着什么？

小结：拥抱不确定，探索新大陆

GCP大面积故障，Go语言是“元凶”还是“背锅侠”？