“骑手与大象”架构:超越微服务与单体之争的务实之道?

本文永久链接 – https://tonybai.com/2025/06/17/rider-elephant-arch

大家好,我是Tony Bai。

在软件架构的江湖里,关于“微服务”与“单体”的论战,几乎从未停歇。一方推崇微服务的灵活性、可扩展性和独立部署,另一方则坚守单体的简洁性、低通信开销和易于本地调试。近年来,我们甚至看到像亚马逊 Prime Video 这样重量级的玩家,也公开分享了其从微服务“回归”到某种形式的单体(或者说更粗粒度的服务)的实践,引发了业界新一轮的思考。

这不禁让我们反问:微服务与单体,真的就是非此即彼的“二元对立”吗?

最近,国外一家名为DealGate公司的一篇文章《Introducing the Rider and Elephant Software Architecture》,提出了一种他们称之为“骑手与大象”的架构模式,试图在这场看似无解的争论中,找到一条务实的中间道路。这种模式不仅在他们的实践中取得了显著成效,其背后的设计哲学和对技术选型的思考,也颇具启发意义。

“骑手与大象”:一个古老隐喻的现代架构演绎

DealGate 将其架构模式命名为“骑手与大象”,其灵感来源于心理学中的一个经典比喻:人类的思维由两部分组成——理性的“骑手”(对应我们发达的前额叶皮层,负责规划、分析和决策)和感性的、更强大的“大象”(对应我们原始的、更底层的“蜥蜴脑”或“穴居人脑”,驱动着本能和情绪)。骑手虽然可以尝试引导大象,但无法完全控制它;而如果骑手想独自前行,又会发现大象的力量是其无法比拟的。只有当骑手与大象协同合作时,才能发挥出最大的效能。

在 DealGate 的架构中,这个隐喻被巧妙地映射到了技术组件上:

  • “大象 (Elephant)”:由 Go语言构建的应用。它不包含任何复杂的业务逻辑,但却承担着所有“脏活累活”——大规模的、高并发的数据处理。在 DealGate 的场景中,这可能意味着在任何时刻都有数万个 goroutine 在处理图像、PDF,抓取数千万级别的网页,并在每个网页上运行数千万次的正则表达式匹配。“大象”的核心职责是:强大、高效、能扛事儿。
  • “骑手 (Rider)”:由NextJS (Node.js) 构建的应用。它承载了所有的业务逻辑、数据库访问、用户交互等。“骑手”的核心职责是:灵活、敏捷、快速响应业务变化。
  • 缰绳 (Communication):“骑手”通过 gRPC 来“引导”和控制“大象”,两者之间保持低开销、高效率的通信。

这种架构的核心思想是:将需要极致性能和高并发处理的“重计算”部分(大象),与需要快速迭代和灵活业务逻辑的“轻应用”部分(骑手)进行分离,并让它们通过高效的通信方式协同工作。

为何选择“骑手与大象”?DealGate 的实践与思考

DealGate 之所以采用这种架构,源于他们在实际业务中遇到的挑战和对现有架构模式的反思。

  • 对“微服务 vs 单体”的“虚假二分法”说不:他们认为,单纯地在微服务和单体之间做选择,往往忽略了业务的复杂性和多样性。他们希望能够“have the best of both worlds”(取两者之长)。
  • Node.js/NextJS 的局限性:尽管 DealGate 的主要应用是用 NextJS 编写的,但他们发现,即使 Node.js 在 I/O 和网络处理上有多线程优势,其正则表达式等 CPU 密集型操作仍然受限于单线程(JavaScript 的执行模型)。当需要在后台进行大量正则匹配,同时还要响应 Web 应用请求时,性能瓶颈就显而易见了。
  • Go 语言的“大象”潜质:文章中明确指出:“Go语言非常适合这种场景,你可以轻松地扔给它数万个CPU密集型进程,它会愉快地处理掉所有这些”。这充分肯定了 Go 语言在并发处理和性能方面的核心优势。
  • 对微服务通信开销的警惕:DealGate 批评了许多微服务架构使用 JSON 进行进程间通信的做法,认为其“序列化和反序列化开销是令人发指的”。他们选择 gRPC,正是为了最大限度地降低“骑手”与“大象”之间的通信成本,确保即使在需要传输大量数据(因为“大象”不包含业务逻辑,需要被视为“愚笨的工人”)的情况下,也能保持高效。

Go 语言:扮演“大象”的理想之选

在“骑手与大象”的架构中,Go 语言之所以被选中扮演“吃苦耐劳的大象”,并非偶然。这得益于 Go 语言的核心特性:

  1. 极致的并发性能:Goroutine 和 Channel 机制,配合高效的调度器,使得 Go 能够轻松创建和管理海量的并发任务,这对于处理 DealGate 所述的“数万个 goroutine 同时处理数据”的场景至关重要。
  2. 高效的执行效率:Go 语言编译为原生机器码,其性能接近 C/C++,远超解释型语言,非常适合 CPU 密集型的数据处理任务。
  3. 强大的标准库:Go 的标准库提供了丰富的网络编程、文本处理(包括正则表达式)、数据编解码等功能,为构建“大象”应用提供了坚实的基础。
  4. 简洁的部署:Go 应用可以编译成单个静态链接的可执行文件,部署简单,依赖少。

可以说,Go 语言的设计哲学和核心能力,使其成为承载这种“无业务逻辑、高并发、重计算”角色的理想选择。

语言选型的“二八原则”与“务实主义”

“骑手与大象”架构的另一个核心启示,在于其对不同技术栈的选择策略,体现了一种深刻的“务实主义”和对“成本效益”的考量。

文章明确反驳了“既然有更高性能的语言(如 Rust 或 Go 本身),为什么不把所有应用都用它来写?”的观点,并将其类比为“那所有应用都应该用汇编来写了”。

其核心逻辑是:

  • 高级语言(如 JavaScript, Python)的优势:更安全(内存管理等)、生产力更高(表达力强、语法糖和轮子多)、开发者社群更大、单位时间开发成本相对更低。
  • 高性能/底层语言(如 Go, Rust, C++)的优势:性能极致、对系统资源有更精细的控制。但通常也意味着更陡峭的学习曲线、更高的开发成本、以及(在某些情况下)更长的开发周期。

DealGate 的策略是:“在你必须快的地方快,其他一切都选择高级语言和(相对)单体的模式。” 这意味着:

  • 将昂贵的、需要精细优化的高性能代码(大象)限制在最小的必要范围内(例如,只占整个业务系统的 10%)。
  • 将大部分的业务逻辑、用户交互(骑手)用生产力更高、开发更快的高级语言来实现

这种“混合编程”或“多语言架构”的思路,实际上是在性能、开发效率、人才获取成本、维护成本等多个维度之间进行权衡和优化。它提醒我们,技术选型不应盲目追求“最新最酷”或“性能极致”,而应服务于业务需求,并充分考虑团队和公司的实际情况。

文章中也提及了对“Just write Rust”(就用 Rust 写)这类口号的反思,指出大多数公司和开发者可能无法承担全员学习和使用像 Rust 这样“高门槛”语言的成本。这并非否定 Rust 的优秀,而是强调技术选型的现实约束。

小结:“没有完美的解决方案,只有明智的权衡”

“没有完美的解决方案,只有权衡取舍”。DealGate 的文章以这句经典的名言作为总结,恰如其分。

“骑手与大象”架构,正是在微服务的灵活性、分布式能力与单体的低心智负担、高开发效率之间做出的一种明智权衡。它并非适用于所有场景的“银弹”,但在类似 DealGate 这样需要处理大规模数据密集型任务,同时又需要快速迭代业务逻辑的场景下,无疑提供了一种极具价值的、务实的架构思路。

它也再次印证了一个朴素的道理:优秀的架构设计,往往不是对某种“主义”的盲从,而是对业务需求的深刻理解和对不同技术优劣的精准把握,最终在各种约束条件下找到那个“恰到好处”的平衡点。

或许,在微服务与单体的喧嚣争论之外,我们更应该学习这种“骑手与大象”的智慧——在正确的地方,用正确的方式,做正确的事情。

参考文献:
Introducing the Rider and Elephant Software Architecture – https://d-gate.io/blog/rider-and-elephant-architecture


聊一聊,也帮个忙:

  • 你如何看待 DealGate 提出的“骑手与大象”架构模式?它是否对你的项目有所启发?
  • 在你的工作中,是否也遇到过类似的“微服务 vs 单体”或“高性能 vs 高生产力”的选型困境?你是如何权衡的?
  • Go 语言在你心目中,更适合扮演“骑手”还是“大象”的角色?或者两者皆可,取决于具体场景?

欢迎在评论区留下你的思考和经验。如果你觉得这篇文章提供了一个有价值的视角,也请转发给你身边的开发者和架构师朋友们,一起探讨更务实的架构之道!


精进有道,更上层楼

极客时间《Go语言进阶课》上架刚好一个月,受到了各位读者的热烈欢迎和反馈。在这里感谢大家的支持。目前我们已经完成了课程模块一『语法强化篇』的 13 讲,为你系统突破 Go 语言的语法认知瓶颈,打下坚实基础。

现在,我们即将进入模块二『设计先行篇』,这不仅包括 API 设计,更涵盖了项目布局、包设计、并发设计、接口设计、错误处理设计等构建高质量 Go 代码的关键要素。

这门进阶课程,是我多年 Go 实战经验和深度思考的结晶,旨在帮助你突破瓶颈,从“会用 Go”迈向“精通 Go”,真正驾驭 Go 语言,编写出更优雅、
更高效、更可靠的生产级代码!

扫描下方二维码,立即开启你的 Go 语言进阶之旅!


商务合作方式:撰稿、出书、培训、在线课程、合伙创业、咨询、广告合作。如有需求,请扫描下方公众号二维码,与我私信联系。

GCP大面积故障,Go语言是“元凶”还是“背锅侠”?

本文永久链接 – https://tonybai.com/2025/06/16/go-avoid-critical-incident

大家好,我是Tony Bai。

科技圈的每一次“风吹草动”,尤其是大型云服务的故障,总能引发我们技术人无数的讨论与反思。最近,一则关于“Google Cloud Platform (GCP) Service Control 在 2025 年 6 月发生重大故障”的消息,及其事后分析报告中直指的“null pointer crash loop”,在技术社区掀起了不小的波澜。

故障报告中还提到了几个雪上加霜的因素:没有特性标志 (Feature Flags) 进行高风险部署、缺乏优雅的错误处理(二进制文件直接崩溃而非优雅降级)、以及没有回退机制导致系统过载。

考虑到 Go 语言在 Google 内部(如 Kubernetes, Cloud Run 等)以及整个云原生领域的广泛应用,一个自然而然的疑问浮出水面:Go语言是否是这次 GCP 故障的“元凶”?或者说,Go 的某些特性,是否在某种程度上“助长”了这类问题的发生?反过来,Go 的设计又是否本可以帮助避免这样的灾难?

这这篇文章中,我们就结合社区的智慧,从Go语言特性和更广泛的软件工程实践角度,来剖析一下这类故障背后的深层原因。这不仅是对一个故障的假想复盘,更是对我们日常开发实践的一次警醒。

Go 语言特性:是“防火墙”还是“导火索”?

社区论坛上的讨论,首先就聚焦在了 Go 语言本身的一些特性上。

显式错误返回 (if err != nil):万无一失还是“防君子不防小人”?

有开发者认为,Go 标志性的显式错误返回设计(即函数返回 (value, error),调用者必须检查 err),本应是避免错误的有力武器。但也有观点指出,这种模式的“简洁性”(或者说,可以通过 _ 忽略错误的便利性)有时反而可能在项目压力大、追求快速上线时,被开发者有意或无意地跳过,导致潜在的错误处理缺失。比如常见的 value, _ := someFunction() 写法。

Go的显式错误返回,确实为构建健壮软件提供了坚实的基础。它将错误视为一等公民,迫使开发者直面错误处理。但语言提供的机制,终究不能替代开发者的责任心和良好的编码习惯。正如有些开发者提到的,golangci-lint 这样的静态检查工具可以有效地发现未检查的错误,但这需要团队将其融入开发流程并严格执行。**语言设计提供了“防火墙”,但工程师的素养和流程的完备性,才是决定防火墙是否真正起作用的关键。

Nil Pointer Panic:Go 也难逃的“魔爪”?

针对报告中提到的“null pointer crash loop”,许多评论者指出,nil 指针 panic 在 Go 中也并非罕见。Go 语言本身允许指针存在,也允许指针为 nil,并且不像 Rust 的 Option/Result 类型或 C# 的可空引用类型那样,在语言层面强制开发者处理潜在的 nil 情况。

的确,Go 语言的设计哲学是简洁,它相信开发者有能力正确处理指针。避免 nil panic 的核心在于良好的编码实践:防御性编程(在使用指针前进行检查)、最小化指针使用(Go 鼓励值传递,许多场景可以完全避免指针)、以及充分的测试(特别是边界条件和异常路径)。虽然 Go 没有语言层面的强制 nil 检查,但其简洁性也使得这类检查的成本相对较低。

panic/recover 机制:救命稻草还是饮鸩止渴?

有开发者分享经验,倾向于用 panic/recover 包裹所有核心逻辑,试图捕获所有潜在的运行时崩溃。但针对像故障中提到的 Service Control 这样的有状态、高关键性的系统,这种做法也引发了质疑:recover 后的程序状态是否真的可靠?强行“续命”一个可能已处于不一致状态的进程,是否比让它快速失败并由外部监控系统(如 Kubernetes)重启更安全?关于这个问题,我曾在《“这代码迟早出事!”——复盘线上问题:六个让你头痛的Go编码坏味道》一文中也讨论过。

panic/recover 在 Go 中有其特定的适用场景,例如在库的边界将内部的 panic 转换为 error 返回给调用者,或者处理真正意外且难以通过常规错误处理覆盖的严重问题。但对于关键业务服务,尤其是有状态的服务,“fail fast” 依然是目前社区认为的更可取的设计。让服务在遇到严重内部错误时快速、干净地退出,依赖外部的健康检查和自动重启机制来恢复服务,往往比试图在不确定的状态下继续运行更稳妥。

这样来看,Go 语言的设计,如显式错误处理,确实为构建可靠系统提供了工具。但它并不提供“银弹”,也不能完全消除诸如 nil 指针解引用这类逻辑错误的可能性。语言特性是基础,但绝非全部。

超越语言:流程、测试与工程文化的“灵魂拷问”

在针对该故障的讨论中,一个压倒性的共识是:这类大型系统故障,往往更多是软件工程流程、测试策略和工程文化上的问题,而非单一语言设计所能左右。

“100% 测试覆盖率”的迷思与测试策略的缺位

有开发者提出“你可以覆盖 100% 的代码行,但你永远无法覆盖 100% 的输入和状态组合。” 这句话一针见血。过度迷信行覆盖率,而忽略了测试的深度和广度,是许多团队的通病。

那么真正有效的测试策略应该是什么呢?显然单一的测试策略是无法保证程序上线后的质量的。下面是几种常见的测试策略:

  • 单元测试 (Unit Testing): 验证开发者对代码单元在预期输入下的行为。
  • 模糊测试 (Fuzz Testing): 通过自动生成大量随机或变异输入,探索代码的边缘情况和未知缺陷。Go 1.18 已将 Fuzz Testing 内置到标准工具链中,这是一个强大的武器。
  • 集成测试 (Integration Testing): 验证模块间的交互。
  • 端到端测试 (End-to-End Testing): 模拟真实用户场景。
  • 生产测试/灰度发布 (Staged Rollouts / Canary Releases): 在真实生产环境中,小范围、逐步地验证变更的可靠性,这是大型系统发布的“金丝雀”。

这些策略显而易见,但又有多少团队能真正全面的做到呢?

特性标志 (Feature Flags):高风险变更的“安全阀”

故障报告中提到了“没有特性标志进行风险部署”,这几乎是大型系统发布的“大忌”。特性标志允许团队在不重新部署代码的情况下,动态地开启或关闭某项功能,从而:

  • 安全地进行 A/B 测试。
  • 逐步向用户灰度上线新功能,控制风险。
  • 在出现问题时,能够快速关闭故障功能,实现秒级“回滚”(功能层面)。

缺乏特性标志,意味着任何高风险的变更都像是在“裸奔”。

优雅降级与回滚预案:Plan B 的重要性

系统出错在所难免,关键在于出错后如何表现。故障报告中“二进制崩溃而非优雅降级”以及“没有随机回退导致过载”,都指向了系统鲁棒性的缺失。

  • 优雅降级: 当核心服务出现问题时,非关键功能是否可以降级服务,保证核心可用性?例如,推荐系统不可用时,是否可以展示默认热门内容,而不是整个页面崩溃?
  • 回滚计划: 任何部署都应该有明确、经过演练的回滚计划。出现问题时,能否快速、安全地回退到上一个稳定版本?

代码审查、自动化工具与工程文化

  • 严格的代码审查: 是发现逻辑错误、不规范写法(如忽略错误、滥用指针)的重要手段。
  • 静态分析与 Linter:golangci-lint 等工具可以自动化地检查出大量潜在问题,包括未处理的错误、不安全的并发操作等。但正如有些开发者在评论中所言,“linters can be disabled”,关键还是在于流程的执行。
  • 警惕“Vibe Coding”:有开发者犀利地指出“Garbage in, garbage out”。如果团队强依赖AI的“氛围”编码,而缺乏对生成代码的审查,那么无论用什么语言,都可能埋下隐患。
  • 重视流程而非迷信工具:许多评论都强调,即使有再好的语言特性或工具,如果缺乏健全的开发、测试、部署流程,以及对质量负责的工程文化,故障依然难以避免。

AI 辅助编程:是“帮手”还是新的“风险源”?

一个有趣的衍生讨论是关于 AI 辅助编程(如 GitHub Copilot、Google Gemini Code Assist)在其中的角色。

有开发者提到,Google 内部已有大量代码由 Gemini 生成。也有人分享使用 AI 辅助编程的体验,认为其在作为“结对编程伙伴”或“辅助搜索”时有价值,但完全自动生成的代码质量参差不齐,有时甚至会引入“幻觉”和新的 bug。

AI 辅助编程无疑是未来的趋势,它有可能提高开发效率,辅助开发者处理重复性工作。但目前来看,AI 生成的代码更需要、而不是更不需要人类的严格审查和充分测试。将 AI 视为一个能提供建议、加速编码的助手是合适的,但如果过度依赖,甚至将其生成的代码不经审视直接合入生产,那无异于引入了新的、更不可控的风险源。特别是在错误处理、并发安全、边界条件这些需要深度思考的领域,AI至少目前还难以完全替代经验丰富的工程师,尤其是一些mission critical的系统中。不要被那些用AI生成一个简单工具站的“AI战果”所迷惑。

小节:语言是利器,工程实践才是灵魂

回到最初的问题:GCP Service Control 的这次故障,Go 语言是“元凶”还是“背锅侠”?

从 社区的讨论和我们的分析来看,将板子完全打在 Go 语言身上,显然是有失公允的。Go 语言的设计,如其显式错误处理、简洁性带来的高可读性、以及强大的并发能力,都为构建健壮、高效的系统提供了良好的基础。

然而,语言终究只是工具,它不能替代健全的软件工程流程和严谨的工程文化。 此次 GCP 故障所暴露出的问题——无论是可能的 nil 指针解引用,还是更宏观的缺乏特性标志、部署策略失当、错误处理不优雅——更多地指向了在测试、部署、风险控制、质量保障等一系列工程实践环节可能存在的缺失。

对于我们 Go 开发者而言,这次事件给我们带来的启示应该是:

  • 充分利用 Go 的优势: 写出符合 Go 惯例的、清晰的错误处理逻辑;审慎使用指针,做好 nil 检查;发挥 Go 并发模型的威力。
  • 拥抱并严格执行工程最佳实践: 将单元测试、集成测试、模糊测试落到实处;在重要变更上线时,务必使用特性标志和灰度发布策略;建立严格的代码审查机制;利用好静态分析工具。
  • 对 AI 保持理性: 善用 AI 辅助工具提高效率,但绝不能放松对代码质量的把控和人工审查的力度。

最终,构建一个真正高可用、高可靠的大型系统,依赖的绝不仅仅是选择一门“好”的语言,更在于整个团队对卓越工程实践的持续追求和严格执行。

你对这次讨论有什么看法?或者在你的 Go 项目中,是如何保障系统稳定性的?欢迎在评论区留下你的宝贵经验!


精进有道,更上层楼

极客时间《Go语言进阶课》上架刚好一个月,受到了各位读者的热烈欢迎和反馈。在这里感谢大家的支持。目前我们已经完成了课程模块一『语法强化篇』的 13 讲,为你系统突破 Go 语言的语法认知瓶颈,打下坚实基础。

现在,我们即将进入模块二『设计先行篇』,这不仅包括 API 设计,更涵盖了项目布局、包设计、并发设计、接口设计、错误处理设计等构建高质>量 Go 代码的关键要素。

这门进阶课程,是我多年 Go 实战经验和深度思考的结晶,旨在帮助你突破瓶颈,从“会用 Go”迈向“精通 Go”,真正驾驭 Go 语言,编写出更优雅、
更高效、更可靠的生产级代码!

扫描下方二维码,立即开启你的 Go 语言进阶之旅!

感谢阅读!

如果这篇文章让你对Go语言有了新的认识,请帮忙转发,让更多朋友一起学习和进步!


商务合作方式:撰稿、出书、培训、在线课程、合伙创业、咨询、广告合作。如有需求,请扫描下方公众号二维码,与我私信联系。

如发现本站页面被黑,比如:挂载广告、挖矿等恶意代码,请朋友们及时联系我。十分感谢! Go语言第一课 Go语言进阶课 Go语言精进之路1 Go语言精进之路2 Go语言第一课 Go语言编程指南
商务合作请联系bigwhite.cn AT aliyun.com

欢迎使用邮件订阅我的博客

输入邮箱订阅本站,只要有新文章发布,就会第一时间发送邮件通知你哦!

这里是 Tony Bai的个人Blog,欢迎访问、订阅和留言! 订阅Feed请点击上面图片

如果您觉得这里的文章对您有帮助,请扫描上方二维码进行捐赠 ,加油后的Tony Bai将会为您呈现更多精彩的文章,谢谢!

如果您希望通过微信捐赠,请用微信客户端扫描下方赞赏码:

如果您希望通过比特币或以太币捐赠,可以扫描下方二维码:

比特币:

以太币:

如果您喜欢通过微信浏览本站内容,可以扫描下方二维码,订阅本站官方微信订阅号“iamtonybai”;点击二维码,可直达本人官方微博主页^_^:
本站Powered by Digital Ocean VPS。
选择Digital Ocean VPS主机,即可获得10美元现金充值,可 免费使用两个月哟! 著名主机提供商Linode 10$优惠码:linode10,在 这里注册即可免费获 得。阿里云推荐码: 1WFZ0V立享9折!


View Tony Bai's profile on LinkedIn
DigitalOcean Referral Badge

文章

评论

  • 正在加载...

分类

标签

归档



View My Stats