如果服务器悄悄“猝死”,你的系统还能活几秒?揭秘分布式集群的“续命”保底机制

本文永久链接 – https://tonybai.com/2026/03/20/heartbeats-in-distributed-systems 大家好,我是Tony Bai。 在开发单体应用时,我们很少操心“服务器死没死”的问题——进程挂了就是挂了,整个服务直接 502。但在庞大的分布式系统和微服务架构中,最大的噩梦往往不是服务器彻底宕机,而是**“它悄悄死去了,但整个集群却以为它还活着”。** ...

March 20, 2026 · 8 min · Tony Bai

一个 Kubernetes 集群的“珠峰攀登”:从 10 万到 100 万节点的极限探索

本文永久链接 – https://tonybai.com/2025/10/20/k8s-1m-intro 大家好,我是Tony Bai。 在云原生的世界里,Kubernetes 集群的规模,如同一座待征服的高峰。业界巨头 AWS 已将旗帜插在了 10 万节点的高度,这曾被认为是云的“天际线”。然而,一位前OpenAI工程师(曾参与OpenAI 7.5k节点的Kubernetes集群的建设)发起了一个更雄心勃勃、甚至堪称“疯狂”的个人项目:k8s-1m。他的目标,是向着那座从未有人登顶的、充满未知险峻的**“百万节点”**之巅,发起一次单枪匹马的极限攀登。 ...

October 20, 2025 · 7 min · Tony Bai