Tony Bai - 一个程序员的心路历程

“骑手与大象”架构：超越微服务与单体之争的务实之道？

六月 17, 2025
0 条评论

本文永久链接 – https://tonybai.com/2025/06/17/rider-elephant-arch

大家好，我是Tony Bai。

在软件架构的江湖里，关于“微服务”与“单体”的论战，几乎从未停歇。一方推崇微服务的灵活性、可扩展性和独立部署，另一方则坚守单体的简洁性、低通信开销和易于本地调试。近年来，我们甚至看到像亚马逊 Prime Video 这样重量级的玩家，也公开分享了其从微服务“回归”到某种形式的单体（或者说更粗粒度的服务）的实践，引发了业界新一轮的思考。

这不禁让我们反问：微服务与单体，真的就是非此即彼的“二元对立”吗？

最近，国外一家名为DealGate公司的一篇文章《Introducing the Rider and Elephant Software Architecture》，提出了一种他们称之为“骑手与大象”的架构模式，试图在这场看似无解的争论中，找到一条务实的中间道路。这种模式不仅在他们的实践中取得了显著成效，其背后的设计哲学和对技术选型的思考，也颇具启发意义。

“骑手与大象”：一个古老隐喻的现代架构演绎

DealGate 将其架构模式命名为“骑手与大象”，其灵感来源于心理学中的一个经典比喻：人类的思维由两部分组成——理性的“骑手”（对应我们发达的前额叶皮层，负责规划、分析和决策）和感性的、更强大的“大象”（对应我们原始的、更底层的“蜥蜴脑”或“穴居人脑”，驱动着本能和情绪）。骑手虽然可以尝试引导大象，但无法完全控制它；而如果骑手想独自前行，又会发现大象的力量是其无法比拟的。只有当骑手与大象协同合作时，才能发挥出最大的效能。

在 DealGate 的架构中，这个隐喻被巧妙地映射到了技术组件上：

“大象 (Elephant)”：由 Go语言构建的应用。它不包含任何复杂的业务逻辑，但却承担着所有“脏活累活”——大规模的、高并发的数据处理。在 DealGate 的场景中，这可能意味着在任何时刻都有数万个 goroutine 在处理图像、PDF，抓取数千万级别的网页，并在每个网页上运行数千万次的正则表达式匹配。“大象”的核心职责是：强大、高效、能扛事儿。
“骑手 (Rider)”：由NextJS (Node.js) 构建的应用。它承载了所有的业务逻辑、数据库访问、用户交互等。“骑手”的核心职责是：灵活、敏捷、快速响应业务变化。
缰绳 (Communication)：“骑手”通过 gRPC 来“引导”和控制“大象”，两者之间保持低开销、高效率的通信。

这种架构的核心思想是：将需要极致性能和高并发处理的“重计算”部分（大象），与需要快速迭代和灵活业务逻辑的“轻应用”部分（骑手）进行分离，并让它们通过高效的通信方式协同工作。

为何选择“骑手与大象”？DealGate 的实践与思考

DealGate 之所以采用这种架构，源于他们在实际业务中遇到的挑战和对现有架构模式的反思。

对“微服务 vs 单体”的“虚假二分法”说不：他们认为，单纯地在微服务和单体之间做选择，往往忽略了业务的复杂性和多样性。他们希望能够“have the best of both worlds”（取两者之长）。
Node.js/NextJS 的局限性：尽管 DealGate 的主要应用是用 NextJS 编写的，但他们发现，即使 Node.js 在 I/O 和网络处理上有多线程优势，其正则表达式等 CPU 密集型操作仍然受限于单线程（JavaScript 的执行模型）。当需要在后台进行大量正则匹配，同时还要响应 Web 应用请求时，性能瓶颈就显而易见了。
Go 语言的“大象”潜质：文章中明确指出：“Go语言非常适合这种场景，你可以轻松地扔给它数万个CPU密集型进程，它会愉快地处理掉所有这些”。这充分肯定了 Go 语言在并发处理和性能方面的核心优势。
对微服务通信开销的警惕：DealGate 批评了许多微服务架构使用 JSON 进行进程间通信的做法，认为其“序列化和反序列化开销是令人发指的”。他们选择 gRPC，正是为了最大限度地降低“骑手”与“大象”之间的通信成本，确保即使在需要传输大量数据（因为“大象”不包含业务逻辑，需要被视为“愚笨的工人”）的情况下，也能保持高效。

Go 语言：扮演“大象”的理想之选

在“骑手与大象”的架构中，Go 语言之所以被选中扮演“吃苦耐劳的大象”，并非偶然。这得益于 Go 语言的核心特性：

极致的并发性能：Goroutine 和 Channel 机制，配合高效的调度器，使得 Go 能够轻松创建和管理海量的并发任务，这对于处理 DealGate 所述的“数万个 goroutine 同时处理数据”的场景至关重要。
高效的执行效率：Go 语言编译为原生机器码，其性能接近 C/C++，远超解释型语言，非常适合 CPU 密集型的数据处理任务。
强大的标准库：Go 的标准库提供了丰富的网络编程、文本处理（包括正则表达式）、数据编解码等功能，为构建“大象”应用提供了坚实的基础。
简洁的部署：Go 应用可以编译成单个静态链接的可执行文件，部署简单，依赖少。

可以说，Go 语言的设计哲学和核心能力，使其成为承载这种“无业务逻辑、高并发、重计算”角色的理想选择。

语言选型的“二八原则”与“务实主义”

“骑手与大象”架构的另一个核心启示，在于其对不同技术栈的选择策略，体现了一种深刻的“务实主义”和对“成本效益”的考量。

文章明确反驳了“既然有更高性能的语言（如 Rust 或 Go 本身），为什么不把所有应用都用它来写？”的观点，并将其类比为“那所有应用都应该用汇编来写了”。

其核心逻辑是：

高级语言（如 JavaScript, Python）的优势：更安全（内存管理等）、生产力更高（表达力强、语法糖和轮子多）、开发者社群更大、单位时间开发成本相对更低。
高性能/底层语言（如 Go, Rust, C++）的优势：性能极致、对系统资源有更精细的控制。但通常也意味着更陡峭的学习曲线、更高的开发成本、以及（在某些情况下）更长的开发周期。

DealGate 的策略是：“在你必须快的地方快，其他一切都选择高级语言和（相对）单体的模式。” 这意味着：

将昂贵的、需要精细优化的高性能代码（大象）限制在最小的必要范围内（例如，只占整个业务系统的 10%）。
将大部分的业务逻辑、用户交互（骑手）用生产力更高、开发更快的高级语言来实现。

这种“混合编程”或“多语言架构”的思路，实际上是在性能、开发效率、人才获取成本、维护成本等多个维度之间进行权衡和优化。它提醒我们，技术选型不应盲目追求“最新最酷”或“性能极致”，而应服务于业务需求，并充分考虑团队和公司的实际情况。

文章中也提及了对“Just write Rust”（就用 Rust 写）这类口号的反思，指出大多数公司和开发者可能无法承担全员学习和使用像 Rust 这样“高门槛”语言的成本。这并非否定 Rust 的优秀，而是强调技术选型的现实约束。

小结：“没有完美的解决方案，只有明智的权衡”

“没有完美的解决方案，只有权衡取舍”。DealGate 的文章以这句经典的名言作为总结，恰如其分。

“骑手与大象”架构，正是在微服务的灵活性、分布式能力与单体的低心智负担、高开发效率之间做出的一种明智权衡。它并非适用于所有场景的“银弹”，但在类似 DealGate 这样需要处理大规模数据密集型任务，同时又需要快速迭代业务逻辑的场景下，无疑提供了一种极具价值的、务实的架构思路。

它也再次印证了一个朴素的道理：优秀的架构设计，往往不是对某种“主义”的盲从，而是对业务需求的深刻理解和对不同技术优劣的精准把握，最终在各种约束条件下找到那个“恰到好处”的平衡点。

或许，在微服务与单体的喧嚣争论之外，我们更应该学习这种“骑手与大象”的智慧——在正确的地方，用正确的方式，做正确的事情。

参考文献：
Introducing the Rider and Elephant Software Architecture – https://d-gate.io/blog/rider-and-elephant-architecture

聊一聊，也帮个忙：

你如何看待 DealGate 提出的“骑手与大象”架构模式？它是否对你的项目有所启发？
在你的工作中，是否也遇到过类似的“微服务 vs 单体”或“高性能 vs 高生产力”的选型困境？你是如何权衡的？
Go 语言在你心目中，更适合扮演“骑手”还是“大象”的角色？或者两者皆可，取决于具体场景？

欢迎在评论区留下你的思考和经验。如果你觉得这篇文章提供了一个有价值的视角，也请转发给你身边的开发者和架构师朋友们，一起探讨更务实的架构之道！

精进有道，更上层楼

极客时间《Go语言进阶课》上架刚好一个月，受到了各位读者的热烈欢迎和反馈。在这里感谢大家的支持。目前我们已经完成了课程模块一『语法强化篇』的 13 讲，为你系统突破 Go 语言的语法认知瓶颈，打下坚实基础。

现在，我们即将进入模块二『设计先行篇』，这不仅包括 API 设计，更涵盖了项目布局、包设计、并发设计、接口设计、错误处理设计等构建高质量 Go 代码的关键要素。

这门进阶课程，是我多年 Go 实战经验和深度思考的结晶，旨在帮助你突破瓶颈，从“会用 Go”迈向“精通 Go”，真正驾驭 Go 语言，编写出更优雅、
更高效、更可靠的生产级代码！

扫描下方二维码，立即开启你的 Go 语言进阶之旅！

商务合作方式：撰稿、出书、培训、在线课程、合伙创业、咨询、广告合作。如有需求，请扫描下方公众号二维码，与我私信联系。

GCP大面积故障，Go语言是“元凶”还是“背锅侠”？

六月 16, 2025
0 条评论

本文永久链接 – https://tonybai.com/2025/06/16/go-avoid-critical-incident

大家好，我是Tony Bai。

科技圈的每一次“风吹草动”，尤其是大型云服务的故障，总能引发我们技术人无数的讨论与反思。最近，一则关于“Google Cloud Platform (GCP) Service Control 在 2025 年 6 月发生重大故障”的消息，及其事后分析报告中直指的“null pointer crash loop”，在技术社区掀起了不小的波澜。

故障报告中还提到了几个雪上加霜的因素：没有特性标志 (Feature Flags) 进行高风险部署、缺乏优雅的错误处理（二进制文件直接崩溃而非优雅降级）、以及没有回退机制导致系统过载。

考虑到 Go 语言在 Google 内部（如 Kubernetes, Cloud Run 等）以及整个云原生领域的广泛应用，一个自然而然的疑问浮出水面：Go语言是否是这次 GCP 故障的“元凶”？或者说，Go 的某些特性，是否在某种程度上“助长”了这类问题的发生？反过来，Go 的设计又是否本可以帮助避免这样的灾难？

这这篇文章中，我们就结合社区的智慧，从Go语言特性和更广泛的软件工程实践角度，来剖析一下这类故障背后的深层原因。这不仅是对一个故障的假想复盘，更是对我们日常开发实践的一次警醒。

Go 语言特性：是“防火墙”还是“导火索”？

社区论坛上的讨论，首先就聚焦在了 Go 语言本身的一些特性上。

显式错误返回 (if err != nil)：万无一失还是“防君子不防小人”？

有开发者认为，Go 标志性的显式错误返回设计（即函数返回 (value, error)，调用者必须检查 err），本应是避免错误的有力武器。但也有观点指出，这种模式的“简洁性”（或者说，可以通过 _ 忽略错误的便利性）有时反而可能在项目压力大、追求快速上线时，被开发者有意或无意地跳过，导致潜在的错误处理缺失。比如常见的 value, _ := someFunction() 写法。

Go的显式错误返回，确实为构建健壮软件提供了坚实的基础。它将错误视为一等公民，迫使开发者直面错误处理。但语言提供的机制，终究不能替代开发者的责任心和良好的编码习惯。正如有些开发者提到的，golangci-lint 这样的静态检查工具可以有效地发现未检查的错误，但这需要团队将其融入开发流程并严格执行。**语言设计提供了“防火墙”，但工程师的素养和流程的完备性，才是决定防火墙是否真正起作用的关键。

Nil Pointer Panic：Go 也难逃的“魔爪”？

针对报告中提到的“null pointer crash loop”，许多评论者指出，nil 指针 panic 在 Go 中也并非罕见。Go 语言本身允许指针存在，也允许指针为 nil，并且不像 Rust 的 Option/Result 类型或 C# 的可空引用类型那样，在语言层面强制开发者处理潜在的 nil 情况。

的确，Go 语言的设计哲学是简洁，它相信开发者有能力正确处理指针。避免 nil panic 的核心在于良好的编码实践：防御性编程（在使用指针前进行检查）、最小化指针使用（Go 鼓励值传递，许多场景可以完全避免指针）、以及充分的测试（特别是边界条件和异常路径）。虽然 Go 没有语言层面的强制 nil 检查，但其简洁性也使得这类检查的成本相对较低。

panic/recover 机制：救命稻草还是饮鸩止渴？

有开发者分享经验，倾向于用 panic/recover 包裹所有核心逻辑，试图捕获所有潜在的运行时崩溃。但针对像故障中提到的 Service Control 这样的有状态、高关键性的系统，这种做法也引发了质疑：recover 后的程序状态是否真的可靠？强行“续命”一个可能已处于不一致状态的进程，是否比让它快速失败并由外部监控系统（如 Kubernetes）重启更安全？关于这个问题，我曾在《“这代码迟早出事！”——复盘线上问题：六个让你头痛的Go编码坏味道》一文中也讨论过。

panic/recover 在 Go 中有其特定的适用场景，例如在库的边界将内部的 panic 转换为 error 返回给调用者，或者处理真正意外且难以通过常规错误处理覆盖的严重问题。但对于关键业务服务，尤其是有状态的服务，“fail fast” 依然是目前社区认为的更可取的设计。让服务在遇到严重内部错误时快速、干净地退出，依赖外部的健康检查和自动重启机制来恢复服务，往往比试图在不确定的状态下继续运行更稳妥。

这样来看，Go 语言的设计，如显式错误处理，确实为构建可靠系统提供了工具。但它并不提供“银弹”，也不能完全消除诸如 nil 指针解引用这类逻辑错误的可能性。语言特性是基础，但绝非全部。

超越语言：流程、测试与工程文化的“灵魂拷问”

在针对该故障的讨论中，一个压倒性的共识是：这类大型系统故障，往往更多是软件工程流程、测试策略和工程文化上的问题，而非单一语言设计所能左右。

“100% 测试覆盖率”的迷思与测试策略的缺位

有开发者提出“你可以覆盖 100% 的代码行，但你永远无法覆盖 100% 的输入和状态组合。” 这句话一针见血。过度迷信行覆盖率，而忽略了测试的深度和广度，是许多团队的通病。

那么真正有效的测试策略应该是什么呢？显然单一的测试策略是无法保证程序上线后的质量的。下面是几种常见的测试策略：

单元测试 (Unit Testing): 验证开发者对代码单元在预期输入下的行为。
模糊测试 (Fuzz Testing): 通过自动生成大量随机或变异输入，探索代码的边缘情况和未知缺陷。Go 1.18 已将 Fuzz Testing 内置到标准工具链中，这是一个强大的武器。
集成测试 (Integration Testing): 验证模块间的交互。
端到端测试 (End-to-End Testing): 模拟真实用户场景。
生产测试/灰度发布 (Staged Rollouts / Canary Releases): 在真实生产环境中，小范围、逐步地验证变更的可靠性，这是大型系统发布的“金丝雀”。

这些策略显而易见，但又有多少团队能真正全面的做到呢？

特性标志 (Feature Flags)：高风险变更的“安全阀”

故障报告中提到了“没有特性标志进行风险部署”，这几乎是大型系统发布的“大忌”。特性标志允许团队在不重新部署代码的情况下，动态地开启或关闭某项功能，从而：

安全地进行 A/B 测试。
逐步向用户灰度上线新功能，控制风险。
在出现问题时，能够快速关闭故障功能，实现秒级“回滚”（功能层面）。

缺乏特性标志，意味着任何高风险的变更都像是在“裸奔”。

优雅降级与回滚预案：Plan B 的重要性

系统出错在所难免，关键在于出错后如何表现。故障报告中“二进制崩溃而非优雅降级”以及“没有随机回退导致过载”，都指向了系统鲁棒性的缺失。

优雅降级: 当核心服务出现问题时，非关键功能是否可以降级服务，保证核心可用性？例如，推荐系统不可用时，是否可以展示默认热门内容，而不是整个页面崩溃？
回滚计划: 任何部署都应该有明确、经过演练的回滚计划。出现问题时，能否快速、安全地回退到上一个稳定版本？

代码审查、自动化工具与工程文化

严格的代码审查: 是发现逻辑错误、不规范写法（如忽略错误、滥用指针）的重要手段。
静态分析与 Linter：golangci-lint 等工具可以自动化地检查出大量潜在问题，包括未处理的错误、不安全的并发操作等。但正如有些开发者在评论中所言，“linters can be disabled”，关键还是在于流程的执行。
警惕“Vibe Coding”：有开发者犀利地指出“Garbage in, garbage out”。如果团队强依赖AI的“氛围”编码，而缺乏对生成代码的审查，那么无论用什么语言，都可能埋下隐患。
重视流程而非迷信工具：许多评论都强调，即使有再好的语言特性或工具，如果缺乏健全的开发、测试、部署流程，以及对质量负责的工程文化，故障依然难以避免。

AI 辅助编程：是“帮手”还是新的“风险源”？

一个有趣的衍生讨论是关于 AI 辅助编程（如 GitHub Copilot、Google Gemini Code Assist）在其中的角色。

有开发者提到，Google 内部已有大量代码由 Gemini 生成。也有人分享使用 AI 辅助编程的体验，认为其在作为“结对编程伙伴”或“辅助搜索”时有价值，但完全自动生成的代码质量参差不齐，有时甚至会引入“幻觉”和新的 bug。

AI 辅助编程无疑是未来的趋势，它有可能提高开发效率，辅助开发者处理重复性工作。但目前来看，AI 生成的代码更需要、而不是更不需要人类的严格审查和充分测试。将 AI 视为一个能提供建议、加速编码的助手是合适的，但如果过度依赖，甚至将其生成的代码不经审视直接合入生产，那无异于引入了新的、更不可控的风险源。特别是在错误处理、并发安全、边界条件这些需要深度思考的领域，AI至少目前还难以完全替代经验丰富的工程师，尤其是一些mission critical的系统中。不要被那些用AI生成一个简单工具站的“AI战果”所迷惑。

小节：语言是利器，工程实践才是灵魂

回到最初的问题：GCP Service Control 的这次故障，Go 语言是“元凶”还是“背锅侠”？

从社区的讨论和我们的分析来看，将板子完全打在 Go 语言身上，显然是有失公允的。Go 语言的设计，如其显式错误处理、简洁性带来的高可读性、以及强大的并发能力，都为构建健壮、高效的系统提供了良好的基础。

然而，语言终究只是工具，它不能替代健全的软件工程流程和严谨的工程文化。 此次 GCP 故障所暴露出的问题——无论是可能的 nil 指针解引用，还是更宏观的缺乏特性标志、部署策略失当、错误处理不优雅——更多地指向了在测试、部署、风险控制、质量保障等一系列工程实践环节可能存在的缺失。

对于我们 Go 开发者而言，这次事件给我们带来的启示应该是：

充分利用 Go 的优势： 写出符合 Go 惯例的、清晰的错误处理逻辑；审慎使用指针，做好 nil 检查；发挥 Go 并发模型的威力。
拥抱并严格执行工程最佳实践： 将单元测试、集成测试、模糊测试落到实处；在重要变更上线时，务必使用特性标志和灰度发布策略；建立严格的代码审查机制；利用好静态分析工具。
对 AI 保持理性： 善用 AI 辅助工具提高效率，但绝不能放松对代码质量的把控和人工审查的力度。

最终，构建一个真正高可用、高可靠的大型系统，依赖的绝不仅仅是选择一门“好”的语言，更在于整个团队对卓越工程实践的持续追求和严格执行。

你对这次讨论有什么看法？或者在你的 Go 项目中，是如何保障系统稳定性的？欢迎在评论区留下你的宝贵经验！