AI - Tony Bai

标签 AI 下的文章

别盲目梭哈 Agentic AI！先看清“确定性”的崩塌与“概率性”重建

十二月 4, 2025
0 条评论

本文永久链接 – https://tonybai.com/2025/12/04/thoughts-before-all-in-agentic-ai

大家好，我是Tony Bai。

如果你在 IT 行业待得够久，最近可能会有一种强烈的“既视感”。

现在的 AI 热潮，像极了当年的移动互联网元年。VC 们兴奋地喊着“所有行业都值得用 AI 重做一遍”。于是我们看到了 AI 版的 Office、AI 版的客服、AI 版的 IDE。表面上看，这确实是历史周期的又一次轮回：新平台出现，旧应用迁移。

但作为在一线写代码的工程师或架构师，你可能隐约感觉到一种前所未有的“失控感”。

以前我们将业务从 PC 迁移到手机，底层逻辑是没变的：输入 A，经过代码 B，必然得到输出 C。这是一个确定性（Deterministic）的世界，我们是构建规则的“上帝”。

但当我们试图把业务迁移到 LLM（大语言模型）上时，地基塌了。同样的 Prompt，今天的结果可能和明天不一样；模型一换，一切全乱；模型会一本正经地胡说八道；原本严丝合缝的逻辑代码，变成了一场概率的游戏。

别被表象骗了。这不仅仅是技术栈的升级，这是计算机科学底层“物理法则”的改变。

我们正在从牛顿力学的“确定性时代”，跨入量子力学的“概率性时代”。在梭哈 Agentic AI（自主智能体）之前，如果看不清这两者的断裂，你的系统注定会崩塌。

img{512x368}

两个世界的对撞：计算器 vs. 实习生

为了讲清楚这个第一性原理的差异，我们不妨打个比方。

经典应用：永远正确的“计算器”

过去几十年我们构建的软件（ERP、SaaS、OS），本质上都是一台极其精密的“超级计算器”。

第一性原理： 布尔逻辑（Boolean Logic）。0 就是 0，1 就是 1。
交互模式： 结构化指令。你必须准确点击菜单、输入 SQL，稍微错一个字符，系统就报错（Crash）。
优势： 精准、可控、100% 可复现。
缺陷： 它没有任何“理解力”。它不知道你为什么要算这个数，它只是机械执行。

AI 原生应用：聪明但会撒谎的“实习生”

而以 LLM 为核心的 AI Agent，本质上是一个名校毕业的“聪明实习生”。

第一性原理： 概率与高维向量（Probability & Vector Space）。它不是在“检索”答案，而是在“预测”下一个字出现的概率。
交互模式： 自然语言意图。你说“帮我搞定那个客户”，它去猜这意味着什么。
优势： 泛化能力强，能理解模糊意图，有创造力。
缺陷： 不可控。 它会“幻觉”（不懂装懂），会跑偏。它的错误不是 Bug，而是概率模型的 Feature（特性）。

现在的痛苦源于什么？

源于我们试图用管理“计算器”的方法（单元测试、严格断言、精确匹配）去管理“实习生”。这注定是徒劳的。

幻觉不是 Bug，是创造力的代价

很多老板问：“能不能让 AI 像数据库一样准确，永远别出错？”

从第一性原理看，不能。

生成式 AI 的核心能力是“联想”和“生成”。如果你把它的温度（Temperature）降到绝对零度，强行让它变得完全确定，它就失去了智能，退化成了一个极其昂贵的搜索引擎。

“确定性”和“创造力”是一对互斥的变量。

银行账务系统需要 100% 的确定性，所以它绝对不能用 LLM 来做核心计算（你不能让 AI 预测你的余额）。
创意写作、咨询建议、模糊检索需要的是发散性，这里是 AI 的主场。

所以，AI 原生应用不可能替代所有经典应用。世界将分裂为两半：

确定性堡垒： 交易、工控、底层架构。（经典代码统治）
概率性旷野： 内容生成、意图理解、决策辅助。（AI 模型统治）

那么，介于两者之间的广阔中间地带（大多数企业软件）该怎么办？

Agentic AI：在混乱中重建秩序的架构

这正是 AI Agent（智能体） 诞生的意义。

Agent 不是简单的 Chatbot，它是一种架构模式。它的核心使命是：用逻辑框架去约束概率模型，让“不确定”的大脑安全地操作“确定”的工具。

我们可以把未来的软件架构想象成一个“倒三明治”：

上层（用户意图）： 模糊、多变、自然语言。（用户说：“给张总发个报价单”）
中层（Agent 大脑）： 概率性核心。 负责拆解任务、规划路径、选择工具。（AI 思考：“张总是谁？报价单格式是什么？我要调用哪个 API？”）
底层（Tools/APIs）： 确定性基石。 数据库、CRM、计算器。（执行：SELECT * FROM users WHERE name=’Zhang’，SEND_EMAIL(…)）

这就是“实习生 + 计算器”模式：

你指挥实习生（AI），实习生去按计算器（经典 App）。

在这个架构中，经典应用/服务并没有死，它们退隐到了后台，变成了 Agent 手中的 Tools。

程序员的进化：从“编写逻辑”到“管理概率”

面对这种架构的崩塌与重建，我们这一代程序员的技能树需要重构。

1. 别扔掉你的 SQL 和 Go

Agent 再聪明，也需要“手脚”。高质量的、原子化的、幂等的 API 变得比以往任何时候都重要。你需要把复杂的业务逻辑封装成 AI 能看懂的 Tool Description（工具描述）。经典后端开发依然是地基。

2. 学习“概率工程学” (Probability Engineering)

你不再是写 if-else 的人，你是 Agent 的老师。

Prompt Engineering： 编写清晰的岗位说明书。
RAG (检索增强)： 给实习生提供准确的参考书，减少幻觉。
Eval (评估)： 建立一套评价体系，去测试这个“实习生”在 1000 次任务中的表现是否达标（而不是纠结于某一次的对错）。

3. 学会设计“护栏”

既然实习生不可控，你就需要设计审查机制。在 Agent 输出结果给用户之前，加一层确定性的校验代码（比如：检查生成的 SQL 是否包含 DELETE 语句，检查生成的金额是否超过上限）。

小结

回到最初的话题。我们并不是在简单的“重做”软件，我们是在培育一个新的物种。

以前，我们强迫人去适应机器，学习机器的菜单和逻辑；

现在，机器终于开始适应人，试图理解我们的模糊与混沌。

虽然这个过程充满了不确定性，充满了“幻觉”和挑战，但这正是进化的代价。梭哈 Agentic AI 之前，请先接受这个世界的随机性，然后用你精湛的工程能力，给它套上逻辑的缰绳。

聊聊你的“人机协作”体验

“确定性”与“概率性”的碰撞，正在重塑我们的代码世界。在你的开发实践中，是否也遇到过因 LLM 的“不确定性”而抓狂的时刻？你是如何给这位“聪明实习生”设计“护栏”的？对于这种全新的“概率性”编程范式，你是感到兴奋还是焦虑？

欢迎在评论区分享你的思考与实战经验！让我们一起探索这个新时代的生存法则。

还在为“复制粘贴喂AI”而烦恼？我的新专栏 《AI原生开发工作流实战》 将带你：

告别低效，重塑开发范式
驾驭AI Agent(Claude Code)，实现工作流自动化
从“AI使用者”进化为规范驱动开发的“工作流指挥家”

扫描下方二维码，开启你的AI原生开发之旅。

你的Go技能，是否也卡在了“熟练”到“精通”的瓶颈期？

想写出更地道、更健壮的Go代码，却总在细节上踩坑？
渴望提升软件设计能力，驾驭复杂Go项目却缺乏章法？
想打造生产级的Go服务，却在工程化实践中屡屡受挫？

继《Go语言第一课》后，我的《Go语言进阶课》终于在极客时间与大家见面了！

我的全新极客时间专栏《Tony Bai·Go语言进阶课》就是为这样的你量身打造！30+讲硬核内容，带你夯实语法认知，提升设计思维，锻造工程实践能力，更有实战项目串讲。

目标只有一个：助你完成从“Go熟练工”到“Go专家”的蜕变！现在就加入，让你的Go技能再上一个新台阶！

商务合作方式：撰稿、出书、培训、在线课程、合伙创业、咨询、广告合作。如有需求，请扫描下方公众号二维码，与我私信联系。

13万节点！Google 如何打破 Kubernetes 的物理极限，构建全球最大集群

十一月 26, 2025
0 条评论

本文永久链接 – https://tonybai.com/2025/11/26/how-google-built-a-130000-node-k8s-cluster

大家好，我是Tony Bai。

Kubernetes 的官方支持上限通常被认为是 5,000 到 15,000 节点。然而，在 AI 时代的算力军备竞赛中，这个数字显得有些“捉襟见肘”。

近日，Google Cloud 发布了一份重磅技术报告，揭示了他们如何在 GKE (Google Kubernetes Engine) 上成功运行了一个130,000 节点的超大规模集群——这是目前已知全球最大的 Kubernetes 集群，其规模是 GKE 官方支持上限（65,000 节点）的两倍，更是开源 Kubernetes 社区上限的近十倍。

这不是一次规模的堆砌，而是一次涉及控制平面、调度器、存储和网络的系统级工程实践，极具参考价值。Google 是如何做到的？让我们深入其架构内部，一探究竟。

背景：AI 时代的“巨兽”需求

推动这一极限挑战的核心动力，是日益庞大的 AI 工作负载。随着大模型训练对算力需求的指数级增长，客户不再满足于万卡集群，而是向着 10万节点 的规模进军。

在这个量级下，挑战不仅来自芯片的短缺，更来自电力和数据中心的物理限制。一个拥有数万块高性能 GPU 的集群，其功耗可能高达数百兆瓦，必须跨越多个数据中心部署。这要求 Kubernetes 不仅要管理庞大的资源，还要具备跨故障域、跨数据中心的极致编排能力。

核心创新：四大技术支柱

为了支撑起这座“13万节点”的摩天大楼，Google 对 Kubernetes 的底层架构进行了四项关键的“手术”。

1. 读操作的极致优化：一致性缓存

在 13 万节点的集群中，数以百万计的 Pod 和对象会产生海量的 API 请求。如果所有读请求都直接打到 etcd（或 GKE 使用的 Spanner），数据库瞬间就会被压垮。

Google 的解决方案是：让 API Server 直接从内存缓存中服务读请求，同时保证强一致性。

具体来说，就是通过引入 Consistent Reads from Cache (KEP-2340)，API Server 可以利用其内存中的 Watch Cache 来服务 GET 和 LIST 请求。

系统会确保缓存中的数据在服务请求前是可验证的最新状态（verifiably up-to-date），从而在不牺牲一致性的前提下，大幅降低了底层数据库的压力。

同时，通过 Snapshottable API Server Cache (KEP-4988)，API Server 甚至可以直接从内存中构建 B-tree 快照，来服务带有 resourceVersion 的历史数据查询，彻底消除了“读放大”问题。

2. 存储后端的无限扩展：基于 Spanner 的分布式键值存储

标准的 Kubernetes 使用 etcd 作为存储后端，但在 13 万节点的规模下，etcd 的容量和吞吐量成为了瓶颈。

GKE 替换了这一层，使用了一个基于 Google Spanner 的专有键值存储系统。

性能数据：在测试中，该存储系统轻松支撑了 13,000 QPS 的租约 (Lease) 更新操作，确保了 13 万个节点的健康检查心跳畅通无阻。
容量：在峰值时，数据库中存储了超过 100 万个 Kubernetes 对象，依然保持了极低的延迟和极高的稳定性。

3. 调度器的进化：Kueue 与工作负载感知

默认的 Kubernetes 调度器是“Pod 中心”的，它一个个地调度 Pod。但这对于 AI 训练任务来说远远不够——AI 任务通常需要“全有或全无” (All-or-Nothing) 的调度保证（即 Gang Scheduling）。

Google 引入了 Kueue，一个构建在原生调度器之上的作业级 (Job-level) 队列管理器。Kueue 负责决定何时接纳一个作业，基于配额、优先级和公平策略进行裁决。它实现了Gang Scheduling，确保一个训练任务的所有 Pod 要么全部启动，要么全部排队，避免了资源死锁。

4. 数据访问的加速：GCS FUSE 与本地化缓存

对于 AI 训练，数据加载速度至关重要。GKE 利用 Cloud Storage FUSE 配合并行下载和区域性缓存 (Anywhere Cache)，让存储在 GCS 对象存储中的海量数据，能像本地文件系统一样被 Pod 高速访问。这使得数据加载延迟降低了 70%，确保了 GPU 不会因为等待数据而空转。

实战演练：一场 13 万节点的压力测试

为了验证这套架构，Google 设计了一个包含四个阶段的极限压力测试，模拟了真实的 AI 生产环境。下图展示了整个测试的时间线和四个关键阶段。

图注：13万节点压力测试的完整执行时间线

阶段一：基线测试 —— 1000 Pods/秒的狂飙

在一个空集群中，一次性启动 130,000 个 Pod 的大规模训练任务。结果显示，控制平面极其稳定，支撑了高达 1,000 Pods/秒 的创建和调度吞吐量。

图注：控制平面的吞吐量监控

阶段二：混合负载与争抢 —— Kueue 的“铁腕”

测试引入了大量低优先级的批处理作业填满集群，然后突然提交高优先级的微调任务。此时，Kueue 展现了惊人的动态调整能力：它在 93 秒内精准抢占了 39,000 个低优 Pod，瞬间腾出资源给高优任务。

图注：Kueue 正在进行资源调度

阶段三与四：突发流量与弹性恢复

在第三阶段，模拟了“双十一”式的流量洪峰，提交最高优先级的推理服务。系统再次平稳应对，甚至在极高负载下，推理 Pod 的 P99 启动延迟仍控制在 10 秒左右，这对于对延迟敏感的在线服务至关重要。

图注：不同负载类型下的 Pod 启动延迟

最后，当流量退去，系统自动释放资源，重新接纳之前被挂起的低优任务，实现了资源的完美闭环和极致利用。

小结：这就是未来的基础设施

Google 的这次 13 万节点实验，不仅是秀肌肉，更是为整个云原生社区指明了方向。它证明了 Kubernetes 在经过合理的架构优化后，完全有能力承载 AI 时代最苛刻的算力需求。

从内存一致性缓存到工作负载感知的调度，这些在极限场景下打磨出的技术创新，最终都会反哺到普通的 GKE 集群，甚至回馈给开源社区（如 Kueue 和 KEP 提案）。

对于我们每一位架构师而言，这都是生动的一课：真正的可扩展性，不仅仅是堆砌硬件，更是对系统每一个环节——从读写路径到调度逻辑——进行极致的工程优化。

资料链接：https://cloud.google.com/blog/products/containers-kubernetes/how-we-built-a-130000-node-gke-cluster/

聊聊你对“规模极限”的看法

Google的13万节点集群，为我们展示了云原生技术栈在AI时代的巨大潜力。在你看来，Kubernetes或其他云原生技术的下一个“物理极限”会是什么？除了Google提到的这四项优化，你认为还有哪些关键技术能帮助我们突破规模的瓶颈？或者，你在自己的工作中，遇到过哪些有趣的“规模化”挑战和解决方案？

欢迎在评论区留下你的真知灼见，让我们一起探讨未来基础设施的模样！

如果这篇文章让你对大规模系统设计有了新的启发，别忘了点个【赞】和【在看】，并分享给更多对技术极限充满好奇的同伴！

还在为“复制粘贴喂AI”而烦恼？我的新专栏 《AI原生开发工作流实战》 将带你：