标签 Kubernetes 下的文章

无聊即可靠:一位资深工程师的九条系统设计法则

本文永久链接 – https://tonybai.com/2025/08/26/good-system-design

大家好,我是Tony Bai。

在技术圈,我们常常被各种“炫技式”的系统设计建议所包围。从入门级的“你一定没听说过队列吧?”到专家级的“在数据库里存布尔值简直是灾难”,这些建议要么过于肤浅,要么过于精巧,往往脱离了大多数工程实践的真实上下文。就连《设计数据密集型应用》这样的经典之作,虽然深刻,却也可能与我们日常面对的大多数问题有些距离。

那么,究竟什么是好的系统设计?如果说软件设计是如何组织代码,那么系统设计就是如何组织服务。其基本元素不再是变量和函数,而是应用服务器、数据库、缓存、队列、事件总线和代理。

近日,一篇名为《我所知道的关于优秀系统设计的一切》的文章在工程师社群中引发了广泛共鸣。其核心观点让人耳目一新:优秀的系统设计,往往看起来平平无奇,甚至有些“无聊”。这种“无聊”,恰恰是系统长期稳定、易于维护的标志。

在本文中,我就和大家一起深入这篇文章的核心思想,看看这位作者所说的“无聊即可靠”的系统设计法则究竟都是哪些!

识别优秀设计:于无声处听惊雷

优秀的设计是什么样的?它往往是“无感的”。当你发现一个功能实现起来比预想的要简单,或者你几乎从不需要去关心系统的某个部分,因为它总是在默默地、可靠地工作时,你就身处一个优秀的设计之中。

这引出了一个悖论:优秀的设计是自我掩饰的,而糟糕的设计往往看起来更令人印象深刻。一个充斥着分布式共识、多种事件驱动模式、CQRS 等“高级”概念的系统,常常让我们心生警惕。这背后,要么是为了弥补某个根本性的错误决策,要么就是赤裸裸的过度设计。

许多工程师看到复杂的系统,会惊叹:“这里发生了好多系统设计!” 但事实恰恰相反,复杂通常是优秀设计缺位的体现。当然,有些系统的复杂性是业务本身带来的,它们不可避免。但一个能正常工作的复杂系统,永远是从一个能正常工作的简单系统演化而来的。从零开始构建一个复杂系统,几乎注定会走向失败。

这与 Go 语言的哲学高度契合。Go 本身就是一门“无聊”的语言,它刻意回避了许多其他语言中的复杂特性,以换取无与伦比的简洁性、可靠性和工程效率。同样,优秀的 Go 系统设计,也应该追求这种“无聊”的可靠性。

状态与无状态:系统设计的核心难题

软件工程中最困难的部分,永远是状态管理。只要你需要在任何时间段内存储任何信息,一系列棘手的决策就会接踵而至。相反,不存储任何信息的应用被称为“无状态”的。

法则一:最大限度地减少有状态组件。

虽然我们应该最小化所有组件,但有状态的组件尤其危险,因为它们会进入“坏的状态”。一个无状态的服务(比如 PDF 转 HTML 服务)可以被容器编排系统(如 Kubernetes)轻易地杀死和重启,从而实现故障自愈。但一个有状态的服务(如数据库)却不能。如果数据库中出现一条格式错误的“脏数据”导致应用崩溃,你就必须手动介入修复。

在实践中,这意味着我们应该努力将系统划分成两种角色:
1. 少数的有状态服务:它们负责与数据库等持久化存储打交道,是状态的“守护者”。
2. 大量的无状态服务:它们负责处理业务逻辑、计算等任务,本身不存储任何持久化状态。

要严格避免让五个不同的服务去写同一张数据库表。更好的模式是,让其中四个服务通过 API 请求或发布事件的方式,与那个唯一的“状态守护者”服务通信,将所有写逻辑都封装在守护者服务内部。对于读逻辑,虽然可以稍微放宽,但将读操作也收敛到一个服务中,依然是更优的选择,只是有时为了性能,我们会容忍一些服务直接读取数据库副本。

数据库:状态的心脏

既然状态管理是核心,那么承载状态的数据库自然就是系统的心脏。以下是围绕关系型数据库(如 PostgreSQL)的一些关键实践。

法则二:精心设计“刚刚好”的 Schema 和索引。

  • Schema 设计:Schema 设计需要在灵活性和规范性之间找到平衡。一旦数据量达到百万级别,修改 Schema 将会是一场噩梦。但如果过度追求灵活性,例如将所有数据都塞进一个 JSON 字段,或者使用 EAV(实体-属性-值)模型,虽然初期开发快,但会将巨大的复杂性和潜在的性能问题转移到应用层代码中。一个好的标准是:你的表结构应该能让一个新人大致读懂应用的业务模型
  • 索引:索引是数据库性能的命脉。要根据最常见的查询模式来创建索引。例如,如果你经常按 WHERE user_id = ? AND status = ? 查询,那么就应该创建一个 (user_id, status) 的复合索引。索引的顺序至关重要,应该将选择性更高(基数更大)的字段放在前面。user_id 的值远比 status(可能只有几种状态)要多,所以 (user_id, status) 远优于 (status, user_id)。同时,不要滥用索引,因为每个索引都会增加写的开销。

法则三:让数据库做它最擅长的事。

在高流量应用中,数据库访问往往是最大的瓶颈。
* 避免 N+1 查询:这是 ORM 带来的常见陷阱。如果你需要从多个表中获取数据,优先使用 JOIN,而不是在应用代码中先查询一个表,然后在循环中逐个查询另一个表。在 Go 中,即使使用 database/sql 或 sqlx,也应通过 IN 子句等方式批量获取数据。
* 善用读写分离:典型的数据库架构包含一个主节点(写)和多个从节点(读)。将尽可能多的读请求路由到只读副本上,可以极大地减轻主节点的压力。唯一的例外是那些无法容忍任何复制延迟的场景。
* 警惕写风暴:对数据库压力最大的操作是写,尤其是事务中的写。如果你的服务可能会产生突发的写请求(例如批量导入功能),务必考虑在应用层进行节流(Throttling)或缓冲。一个简单的 Go 实现可以是,将批量任务拆分成小任务,通过一个带缓冲的 channel 发送给一组 worker goroutine,由它们平滑地写入数据库。

慢操作与快操作:队列是你的朋友

一个服务需要快速响应用户的交互(如 API 请求),通常在几百毫秒内。但有些操作天生就很慢(如视频转码)。

法则四:将慢操作异步化,使用后台作业(Background Jobs)。

通用模式是将“能为用户提供即时价值的最小工作单元”同步完成,将其余的慢操作放入后台作业中处理。例如,用户上传视频后,立即返回“上传成功,正在处理中”,然后将转码任务放入队列。

每个技术公司都会有一套后台作业系统,通常由两部分组成:一个队列(如 Redis、RabbitMQ)和一个作业执行服务。在 Go 生态中,AsynqMachinery 是非常成熟和流行的选择。对于需要延迟执行的任务(例如一个月后发送提醒邮件),直接写入数据库表,然后用定时任务(如 Go 的 cron 库)去扫描和触发,是一种更“无聊”也更可靠的模式。

缓存:一把锋利的双刃剑

当一个慢操作的结果可以被多个用户复用时,缓存就派上了用场。

法则五:谨慎使用缓存,优化优于缓存。

初级工程师热衷于缓存一切,而资深工程师则对缓存避之不及。为什么?因为缓存引入了新的状态,它会过时、会与数据源不一致、会引发难以排查的“幽灵”Bug。在缓存一个慢查询之前,请先确认它是否已经有了最优的索引。

在 Go 中,我们可以使用 sync.Map 或带锁的 map 实现简单的内存缓存,也可以使用 Redis 等外部服务实现分布式缓存。一个有用的“无聊”缓存技巧是,对于那些计算成本极高且不常变化的大型报告,可以用一个定时作业(cron job)每天生成一次,然后将结果(如 JSON 或 Parquet 文件)存入对象存储(如 S3)。API 服务直接从对象存储中提供这个静态文件,这远比维护一个复杂的分布式缓存系统要简单和可靠。

事件:当“不知情”成为一种美德

除了作业队列,事件总线(如 Kafka、NATS)是另一种重要的异步机制。

法则六:当发送者不关心(或不应关心)接收者的行为时,使用事件。

事件与 API 调用的核心区别在于耦合度。API 调用是一种紧耦合的、同步的请求-响应模式。而事件是一种松耦合的、发布-订阅模式。发送者只负责声明“某件事发生了”(如 UserSignedUp),它不关心谁在监听,也不等待任何结果。

在 Go 中,NATS 是一个非常流行的、云原生友好的选择。一个典型的场景是:用户注册服务在成功创建用户后,向 NATS 发布一条 UserSignedUp 事件。下游的邮件服务、风控服务、数据分析服务可以各自订阅并处理这条事件,它们之间互不影响,注册服务也不需要知道它们的存在。

热路径:将精力花在刀刃上

一个复杂的系统有无数的数据流和用户交互路径,试图让每一处都完美是不现实的。

法则七:识别并聚焦于“热路径”。

“热路径”指的是系统中最关键流量最大的部分。在一个电商系统中,“商品浏览”和“下单支付”是热路径,而“修改用户头像”则不是。

热路径的决策空间更小,犯错的成本也更高。一个设计糟糕的设置页面可能只会影响少数用户,但一个有性能问题的下单接口,则可能导致整个业务瘫痪。我们应该将最好的工程资源、最审慎的设计和最完善的监控,都投入到热路径上。

可观测性:照亮黑暗的角落

法则八:在“不开心”的路径上积极地留下痕迹。

当系统出现问题时,日志和指标是我们唯一的线索。

  • 日志:许多工程师为了代码的“优雅”而不愿添加日志。这是一个巨大的错误。尤其是在错误处理、业务决策分支等“unhappy path”上,要积极地、结构化地打日志。Go 1.21+ 内置的 log/slog 包是实现结构化日志的绝佳工具。一个好的日志应该告诉你“为什么”会走到这个分支,而不仅仅是“走到了”这个分支。
  • 指标:除了 CPU、内存等基础指标,还要关注核心业务指标,如队列长度、作业处理耗时、API 响应时间等。尤其要关注 P95/P99 延迟,因为平均值会掩盖掉那些最大、最重要的用户正在遭受的痛苦。

为失败而设计:优雅地倒下

法则九:思考系统在最坏情况下的行为。

  • 重试:不能盲目重试。对于失败的请求,应采用带抖动的指数退避策略,避免在下游服务已经过载时,用重试请求将其彻底压垮。
  • 幂等性:对于所有会产生副作用的写操作(如支付),必须保证其幂等性。经典的实现方式是,在请求中加入一个唯一的“幂等键”(Idempotency Key),服务端记录下处理过的键,对于重复的请求直接返回之前的结果。
  • 故障开关与优雅降级:想清楚当某个依赖不可用时,系统应该“故障开放”(Fail-Open)还是“故障关闭”(Fail-Closed)。限流系统通常应该故障开放,因为可用性比精确限流更重要。而认证系统则必须故障关闭。

小结:拥抱“无聊”的智慧

系统设计的核心,不是追逐时髦的技术或精巧的架构,而是像一个经验丰富的管道工,知道如何用最普通、最可靠的组件,以最稳固的方式将它们连接起来。在大型科技公司,这些“无聊”的组件——事件总线、缓存服务、作业队列——都已是现成的基础设施。此时,优秀的系统设计,就是以最简单直接的方式,将它们恰当地组合起来,解决业务问题。

这种对简洁、可靠和务实的追求,与 Go 语言的设计哲学如出一辙。也许,最激动人心的系统设计,正是那个能让未来接手它的工程师感叹“嗯,这里没什么特别的,一切都理所当然”的设计。因为“理所当然”的背后,是深思熟虑的简单,是千锤百炼的可靠。

资料链接:https://www.seangoedecke.com/good-system-design/


你的Go技能,是否也卡在了“熟练”到“精通”的瓶颈期?

  • 想写出更地道、更健壮的Go代码,却总在细节上踩坑?
  • 渴望提升软件设计能力,驾驭复杂Go项目却缺乏章法?
  • 想打造生产级的Go服务,却在工程化实践中屡屡受挫?

继《Go语言第一课》后,我的《Go语言进阶课》终于在极客时间与大家见面了!

我的全新极客时间专栏 《Tony Bai·Go语言进阶课》就是为这样的你量身打造!30+讲硬核内容,带你夯实语法认知,提升设计思维,锻造工程实践能力,更有实战项目串讲。

目标只有一个:助你完成从“Go熟练工”到“Go专家”的蜕变! 现在就加入,让你的Go技能再上一个新台阶!


商务合作方式:撰稿、出书、培训、在线课程、合伙创业、咨询、广告合作。如有需求,请扫描下方公众号二维码,与我私信联系。

后VMware时代:为什么Kubernetes正在成为VM的新家?

本文永久链接 – https://tonybai.com/2025/mm/dd/the-voice-of-k8s-experts-report-2025

大家好,我是Tony Bai。

过去的一年,企业 IT 基础架构领域经历了一场剧烈的地震。震中,正是由博通(Broadcom)对 VMware 的收购所引发。这场地震带来的,不仅仅是技术栈的更迭,更是一场关于成本、信任与未来路线的“大迁徙”。

最近,我读到一份来自 Portworx 的《2025 年 Kubernetes 专家之声报告》,它用翔实的数据,为这场正在发生的大迁徙描绘了一幅清晰的路线图。报告中的数字是惊人的:

  • 95% 的受访企业计划减少其 VMware 份额。
  • 33% 的企业计划完全停止使用 VMware。
  • 44% 的企业在续签 ELA(企业许可协议)时,成本增长超过了 100 万美元

这已经不是零星的抱怨,而是一场由商业驱动的、不可逆转的技术浪潮。一个核心问题摆在了所有架构师面前:当企业决定“逃离” VMware 时,那些承载着核心业务的虚拟机(VMs),将何去何从?

答案,正日益清晰地指向一个我们既熟悉又陌生的方向:Kubernetes

云原生的新常态:从“试验田”到“核心区”

在讨论 VM 的“新家”之前,我们必须先认清一个事实:Kubernetes 早已不是那个只运行无状态 Web 应用的“试验田”了。

报告数据显示,云原生已经成为企业构建未来的默认选择。82% 的新应用将在云原生平台上构建,更重要的是,58% 的企业已经开始在 Kubernetes 上运行他们最核心的 Tier 0/1 级别的任务关键型应用

这意味着,Kubernetes 已经赢得了企业在性能、稳定性和数据安全方面的信任。它已经成功承载了:

  • 69% 的数据库
  • 67% 的实时分析系统
  • 60% 的 AI/ML 应用

可以说,Kubernetes 已经“身经百战”,证明了自己有能力处理最复杂、最重要的数据密集型工作负载。这为它成为传统 VM 的下一个归宿,奠定了坚实的基础。

VM 的两条“出路”:现代化 vs 统一管理

当企业决定将 VM 工作负载迁出 VMware 时,报告揭示了两条并驾齐驱的主要技术路线:

1. 路径一:彻底现代化 (Modernize) – 59% 的选择

这是最“纯粹”的云原生路径:将传统的、运行在 VM 中的单体或分层应用,进行重构,将其彻底容器化。这条路的好处是能最大化地享受云原生带来的弹性、敏捷性和可移植性。但挑战也最大,它需要大量的重构工作,成本高昂且周期漫长。

2. 路径二:统一管理 (Consolidate) – 57% 的选择

这是一条更务实、更具变革意义的路径:不改变 VM 本身,而是将 VM 的管理平面,统一到 Kubernetes 之上。

通过使用 KubeVirt(报告指出 Red Hat OpenShift Virtualization 是市场首选)等技术,开发者可以在同一个 Kubernetes 集群里,像管理 Pod 一样,去声明、部署、运维和监控传统的虚拟机。

这一趋势,标志着 Kubernetes 的角色正在发生一次深刻的进化:它不再仅仅是一个“容器编排器”,而是在向“数据中心的通用控制平面”演进。 它旨在用一套统一的、声明式的 API,来管理数据中心里的一切——无论是现代的容器,还是“陈旧”的虚拟机。

新战场的挑战:当 VM 跑在 K8s 上

这场宏大的技术迁徙,并非一路坦途。报告同样揭示了这条路上最难啃的几块“硬骨头”:

  • 最大的挑战是人:技能差距 (Skills Gap) – 61%
    传统的 vSphere 管理员面对的是熟悉的图形化界面,而 Kubernetes 的世界则是由 kubectl、YAML 和复杂的命令行构成的。这要求整个基础设施团队进行一次彻底的知识体系和运维模型的迭代,挑战巨大。

  • 最硬的骨头是数据:存储 (Storage) – 69%
    这是将有状态应用(包括 VM)迁移到 Kubernetes 上的永恒难题。VM 习惯于稳定、高性能的块存储(如 vSAN、VMFS)。如何在 Kubernetes 的动态环境中,为 VM 提供企业级的存储、数据保护和灾难恢复能力,是最大的技术挑战。报告中提到,85% 的企业希望在 K8s 上能复制他们现有的存储架构,这个需求清晰而迫切。

  • 迁移比想象的更难
    报告对比了 2024 年和 2025 年的数据,发现企业完成迁移的预期时间正在普遍推迟。例如,预期在 2027 年前完成迁移的比例,从去年的 83% 下降到了今年的 67%。这 16 个百分点的下降,无声地诉说着这场迁移的复杂性和艰巨性。

小结

由商业决策引发的技术变革,往往最为迅猛和彻底。企业“逃离” VMware,背后是成本压力、现代化需求和摆脱厂商锁定的多重驱动。

在这场浪潮中,Kubernetes 凭借其开放、可扩展和业已成熟的生态,正在成为承接这场“大迁徙”的最终目的地。它正在成为现代基础设施的通用操作系统,统一管理着从最新的云原生应用,到最传统的虚拟机的一切。

对于我们工程师而言,这意味着一个明确的信号:理解如何在 Kubernetes 上管理有状态应用和虚拟机,将不再是一项边缘或小众的技能,它正迅速成为云原生时代一项不可或缺的核心竞争力。 无论你选择帮助企业“现代化”应用,还是选择在 K8s 上“统一管理”VM,未来的机遇,都蕴含在这场波澜壮阔的技术变革之中。

资料链接:https://www.cncf.io/blog/2025/08/02/what-500-experts-revealed-about-kubernetes-adoption-and-workloads/


你的Go技能,是否也卡在了“熟练”到“精通”的瓶颈期?

  • 想写出更地道、更健壮的Go代码,却总在细节上踩坑?
  • 渴望提升软件设计能力,驾驭复杂Go项目却缺乏章法?
  • 想打造生产级的Go服务,却在工程化实践中屡屡受挫?

继《Go语言第一课》后,我的《Go语言进阶课》终于在极客时间与大家见面了!

我的全新极客时间专栏 《Tony Bai·Go语言进阶课》就是为这样的你量身打造!30+讲硬核内容,带你夯实语法认知,提升设计思维,锻造工程实践能力,更有实战项目串讲。

目标只有一个:助你完成从“Go熟练工”到“Go专家”的蜕变! 现在就加入,让你的Go技能再上一个新台阶!


商务合作方式:撰稿、出书、培训、在线课程、合伙创业、咨询、广告合作。如有需求,请扫描下方公众号二维码,与我私信联系。

如发现本站页面被黑,比如:挂载广告、挖矿等恶意代码,请朋友们及时联系我。十分感谢! Go语言第一课 Go语言进阶课 AI原生开发工作流实战 Go语言精进之路1 Go语言精进之路2 Go语言第一课 Go语言编程指南
商务合作请联系bigwhite.cn AT aliyun.com

欢迎使用邮件订阅我的博客

输入邮箱订阅本站,只要有新文章发布,就会第一时间发送邮件通知你哦!

这里是 Tony Bai的个人Blog,欢迎访问、订阅和留言! 订阅Feed请点击上面图片

如果您觉得这里的文章对您有帮助,请扫描上方二维码进行捐赠 ,加油后的Tony Bai将会为您呈现更多精彩的文章,谢谢!

如果您希望通过微信捐赠,请用微信客户端扫描下方赞赏码:

如果您希望通过比特币或以太币捐赠,可以扫描下方二维码:

比特币:

以太币:

如果您喜欢通过微信浏览本站内容,可以扫描下方二维码,订阅本站官方微信订阅号“iamtonybai”;点击二维码,可直达本人官方微博主页^_^:
本站Powered by Digital Ocean VPS。
选择Digital Ocean VPS主机,即可获得10美元现金充值,可 免费使用两个月哟! 著名主机提供商Linode 10$优惠码:linode10,在 这里注册即可免费获 得。阿里云推荐码: 1WFZ0V立享9折!


View Tony Bai's profile on LinkedIn
DigitalOcean Referral Badge

文章

评论

  • 正在加载...

分类

标签

归档



View My Stats