标签 AI 下的文章

别盲目梭哈 Agentic AI!先看清“确定性”的崩塌与“概率性”重建

本文永久链接 – https://tonybai.com/2025/12/04/thoughts-before-all-in-agentic-ai

大家好,我是Tony Bai。

如果你在 IT 行业待得够久,最近可能会有一种强烈的“既视感”。

现在的 AI 热潮,像极了当年的移动互联网元年。VC 们兴奋地喊着“所有行业都值得用 AI 重做一遍”。于是我们看到了 AI 版的 Office、AI 版的客服、AI 版的 IDE。表面上看,这确实是历史周期的又一次轮回:新平台出现,旧应用迁移

但作为在一线写代码的工程师或架构师,你可能隐约感觉到一种前所未有的“失控感”

以前我们将业务从 PC 迁移到手机,底层逻辑是没变的:输入 A,经过代码 B,必然得到输出 C。这是一个确定性(Deterministic)的世界,我们是构建规则的“上帝”。

但当我们试图把业务迁移到 LLM(大语言模型)上时,地基塌了。同样的 Prompt,今天的结果可能和明天不一样;模型一换,一切全乱;模型会一本正经地胡说八道;原本严丝合缝的逻辑代码,变成了一场概率的游戏。

别被表象骗了。这不仅仅是技术栈的升级,这是计算机科学底层“物理法则”的改变。

我们正在从牛顿力学的“确定性时代”,跨入量子力学的“概率性时代”。在梭哈 Agentic AI(自主智能体)之前,如果看不清这两者的断裂,你的系统注定会崩塌。

img{512x368}


两个世界的对撞:计算器 vs. 实习生

为了讲清楚这个第一性原理的差异,我们不妨打个比方。

经典应用:永远正确的“计算器”

过去几十年我们构建的软件(ERP、SaaS、OS),本质上都是一台极其精密的“超级计算器”

  • 第一性原理: 布尔逻辑(Boolean Logic)。0 就是 0,1 就是 1。
  • 交互模式: 结构化指令。你必须准确点击菜单、输入 SQL,稍微错一个字符,系统就报错(Crash)。
  • 优势: 精准、可控、100% 可复现。
  • 缺陷: 它没有任何“理解力”。它不知道你为什么要算这个数,它只是机械执行。

AI 原生应用:聪明但会撒谎的“实习生”

而以 LLM 为核心的 AI Agent,本质上是一个名校毕业的“聪明实习生”

  • 第一性原理: 概率与高维向量(Probability & Vector Space)。它不是在“检索”答案,而是在“预测”下一个字出现的概率。
  • 交互模式: 自然语言意图。你说“帮我搞定那个客户”,它去猜这意味着什么。
  • 优势: 泛化能力强,能理解模糊意图,有创造力。
  • 缺陷: 不可控。 它会“幻觉”(不懂装懂),会跑偏。它的错误不是 Bug,而是概率模型的 Feature(特性)。

现在的痛苦源于什么?

源于我们试图用管理“计算器”的方法(单元测试、严格断言、精确匹配)去管理“实习生”。这注定是徒劳的。


幻觉不是 Bug,是创造力的代价

很多老板问:“能不能让 AI 像数据库一样准确,永远别出错?”

从第一性原理看,不能。

生成式 AI 的核心能力是“联想”和“生成”。如果你把它的温度(Temperature)降到绝对零度,强行让它变得完全确定,它就失去了智能,退化成了一个极其昂贵的搜索引擎。

“确定性”和“创造力”是一对互斥的变量。

  • 银行账务系统需要 100% 的确定性,所以它绝对不能用 LLM 来做核心计算(你不能让 AI 预测你的余额)。
  • 创意写作、咨询建议、模糊检索需要的是发散性,这里是 AI 的主场。

所以,AI 原生应用不可能替代所有经典应用。世界将分裂为两半:

  1. 确定性堡垒: 交易、工控、底层架构。(经典代码统治)
  2. 概率性旷野: 内容生成、意图理解、决策辅助。(AI 模型统治)

那么,介于两者之间的广阔中间地带(大多数企业软件)该怎么办?


Agentic AI:在混乱中重建秩序的架构

这正是 AI Agent(智能体) 诞生的意义。

Agent 不是简单的 Chatbot,它是一种架构模式。它的核心使命是:用逻辑框架去约束概率模型,让“不确定”的大脑安全地操作“确定”的工具。

我们可以把未来的软件架构想象成一个“倒三明治”:

  1. 上层(用户意图): 模糊、多变、自然语言。(用户说:“给张总发个报价单”)
  2. 中层(Agent 大脑): 概率性核心。 负责拆解任务、规划路径、选择工具。(AI 思考:“张总是谁?报价单格式是什么?我要调用哪个 API?”)
  3. 底层(Tools/APIs): 确定性基石。 数据库、CRM、计算器。(执行:SELECT * FROM users WHERE name=’Zhang’,SEND_EMAIL(…))

这就是“实习生 + 计算器”模式:

你指挥实习生(AI),实习生去按计算器(经典 App)。

在这个架构中,经典应用/服务并没有死,它们退隐到了后台,变成了 Agent 手中的 Tools



程序员的进化:从“编写逻辑”到“管理概率”

面对这种架构的崩塌与重建,我们这一代程序员的技能树需要重构。

1. 别扔掉你的 SQL 和 Go

Agent 再聪明,也需要“手脚”。高质量的、原子化的、幂等的 API 变得比以往任何时候都重要。你需要把复杂的业务逻辑封装成 AI 能看懂的 Tool Description(工具描述)。经典后端开发依然是地基。

2. 学习“概率工程学” (Probability Engineering)

你不再是写 if-else 的人,你是 Agent 的老师。

  • Prompt Engineering: 编写清晰的岗位说明书。
  • RAG (检索增强): 给实习生提供准确的参考书,减少幻觉。
  • Eval (评估): 建立一套评价体系,去测试这个“实习生”在 1000 次任务中的表现是否达标(而不是纠结于某一次的对错)。

3. 学会设计“护栏”

既然实习生不可控,你就需要设计审查机制。在 Agent 输出结果给用户之前,加一层确定性的校验代码(比如:检查生成的 SQL 是否包含 DELETE 语句,检查生成的金额是否超过上限)。

小结

回到最初的话题。我们并不是在简单的“重做”软件,我们是在培育一个新的物种。

以前,我们强迫人去适应机器,学习机器的菜单和逻辑;

现在,机器终于开始适应人,试图理解我们的模糊与混沌。

虽然这个过程充满了不确定性,充满了“幻觉”和挑战,但这正是进化的代价。梭哈 Agentic AI 之前,请先接受这个世界的随机性,然后用你精湛的工程能力,给它套上逻辑的缰绳。


聊聊你的“人机协作”体验

“确定性”与“概率性”的碰撞,正在重塑我们的代码世界。在你的开发实践中,是否也遇到过因 LLM 的“不确定性”而抓狂的时刻?你是如何给这位“聪明实习生”设计“护栏”的?对于这种全新的“概率性”编程范式,你是感到兴奋还是焦虑?

欢迎在评论区分享你的思考与实战经验! 让我们一起探索这个新时代的生存法则。


还在为“复制粘贴喂AI”而烦恼?我的新专栏 AI原生开发工作流实战 将带你:

  • 告别低效,重塑开发范式
  • 驾驭AI Agent(Claude Code),实现工作流自动化
  • 从“AI使用者”进化为规范驱动开发的“工作流指挥家”

扫描下方二维码,开启你的AI原生开发之旅。


你的Go技能,是否也卡在了“熟练”到“精通”的瓶颈期?

  • 想写出更地道、更健壮的Go代码,却总在细节上踩坑?
  • 渴望提升软件设计能力,驾驭复杂Go项目却缺乏章法?
  • 想打造生产级的Go服务,却在工程化实践中屡屡受挫?

继《Go语言第一课》后,我的《Go语言进阶课》终于在极客时间与大家见面了!

我的全新极客时间专栏 《Tony Bai·Go语言进阶课》就是为这样的你量身打造!30+讲硬核内容,带你夯实语法认知,提升设计思维,锻造工程实践能力,更有实战项目串讲。

目标只有一个:助你完成从“Go熟练工”到“Go专家”的蜕变! 现在就加入,让你的Go技能再上一个新台阶!


商务合作方式:撰稿、出书、培训、在线课程、合伙创业、咨询、广告合作。如有需求,请扫描下方公众号二维码,与我私信联系。

13万节点!Google 如何打破 Kubernetes 的物理极限,构建全球最大集群

本文永久链接 – https://tonybai.com/2025/11/26/how-google-built-a-130000-node-k8s-cluster

大家好,我是Tony Bai。

Kubernetes 的官方支持上限通常被认为是 5,000 到 15,000 节点。然而,在 AI 时代的算力军备竞赛中,这个数字显得有些“捉襟见肘”。

近日,Google Cloud 发布了一份重磅技术报告,揭示了他们如何在 GKE (Google Kubernetes Engine) 上成功运行了一个130,000 节点的超大规模集群——这是目前已知全球最大的 Kubernetes 集群,其规模是 GKE 官方支持上限(65,000 节点)的两倍,更是开源 Kubernetes 社区上限的近十倍。

这不是一次规模的堆砌,而是一次涉及控制平面、调度器、存储和网络的系统级工程实践,极具参考价值。Google 是如何做到的?让我们深入其架构内部,一探究竟。

背景:AI 时代的“巨兽”需求

推动这一极限挑战的核心动力,是日益庞大的 AI 工作负载。随着大模型训练对算力需求的指数级增长,客户不再满足于万卡集群,而是向着 10万节点 的规模进军。

在这个量级下,挑战不仅来自芯片的短缺,更来自电力和数据中心的物理限制。一个拥有数万块高性能 GPU 的集群,其功耗可能高达数百兆瓦,必须跨越多个数据中心部署。这要求 Kubernetes 不仅要管理庞大的资源,还要具备跨故障域、跨数据中心的极致编排能力。

核心创新:四大技术支柱

为了支撑起这座“13万节点”的摩天大楼,Google 对 Kubernetes 的底层架构进行了四项关键的“手术”。

1. 读操作的极致优化:一致性缓存

在 13 万节点的集群中,数以百万计的 Pod 和对象会产生海量的 API 请求。如果所有读请求都直接打到 etcd(或 GKE 使用的 Spanner),数据库瞬间就会被压垮。

Google 的解决方案是:让 API Server 直接从内存缓存中服务读请求,同时保证强一致性。

具体来说,就是通过引入 Consistent Reads from Cache (KEP-2340),API Server 可以利用其内存中的 Watch Cache 来服务 GET 和 LIST 请求。

系统会确保缓存中的数据在服务请求前是可验证的最新状态(verifiably up-to-date),从而在不牺牲一致性的前提下,大幅降低了底层数据库的压力。

同时,通过 Snapshottable API Server Cache (KEP-4988),API Server 甚至可以直接从内存中构建 B-tree 快照,来服务带有 resourceVersion 的历史数据查询,彻底消除了“读放大”问题。

2. 存储后端的无限扩展:基于 Spanner 的分布式键值存储

标准的 Kubernetes 使用 etcd 作为存储后端,但在 13 万节点的规模下,etcd 的容量和吞吐量成为了瓶颈。

GKE 替换了这一层,使用了一个基于 Google Spanner 的专有键值存储系统。

  • 性能数据:在测试中,该存储系统轻松支撑了 13,000 QPS 的租约 (Lease) 更新操作,确保了 13 万个节点的健康检查心跳畅通无阻。
  • 容量:在峰值时,数据库中存储了超过 100 万个 Kubernetes 对象,依然保持了极低的延迟和极高的稳定性。

3. 调度器的进化:Kueue 与工作负载感知

默认的 Kubernetes 调度器是“Pod 中心”的,它一个个地调度 Pod。但这对于 AI 训练任务来说远远不够——AI 任务通常需要“全有或全无” (All-or-Nothing) 的调度保证(即 Gang Scheduling)。

Google 引入了 Kueue,一个构建在原生调度器之上的作业级 (Job-level) 队列管理器。Kueue 负责决定何时接纳一个作业,基于配额、优先级和公平策略进行裁决。它实现了Gang Scheduling,确保一个训练任务的所有 Pod 要么全部启动,要么全部排队,避免了资源死锁。

4. 数据访问的加速:GCS FUSE 与本地化缓存

对于 AI 训练,数据加载速度至关重要。GKE 利用 Cloud Storage FUSE 配合并行下载和区域性缓存 (Anywhere Cache),让存储在 GCS 对象存储中的海量数据,能像本地文件系统一样被 Pod 高速访问。这使得数据加载延迟降低了 70%,确保了 GPU 不会因为等待数据而空转。

实战演练:一场 13 万节点的压力测试

为了验证这套架构,Google 设计了一个包含四个阶段的极限压力测试,模拟了真实的 AI 生产环境。下图展示了整个测试的时间线和四个关键阶段。


图注:13万节点压力测试的完整执行时间线

阶段一:基线测试 —— 1000 Pods/秒的狂飙

在一个空集群中,一次性启动 130,000 个 Pod 的大规模训练任务。结果显示,控制平面极其稳定,支撑了高达 1,000 Pods/秒 的创建和调度吞吐量。


图注:控制平面的吞吐量监控

阶段二:混合负载与争抢 —— Kueue 的“铁腕”

测试引入了大量低优先级的批处理作业填满集群,然后突然提交高优先级的微调任务。此时,Kueue 展现了惊人的动态调整能力:它在 93 秒内精准抢占了 39,000 个低优 Pod,瞬间腾出资源给高优任务。


图注:Kueue 正在进行资源调度

阶段三与四:突发流量与弹性恢复

在第三阶段,模拟了“双十一”式的流量洪峰,提交最高优先级的推理服务。系统再次平稳应对,甚至在极高负载下,推理 Pod 的 P99 启动延迟仍控制在 10 秒左右,这对于对延迟敏感的在线服务至关重要。


图注:不同负载类型下的 Pod 启动延迟

最后,当流量退去,系统自动释放资源,重新接纳之前被挂起的低优任务,实现了资源的完美闭环和极致利用。

小结:这就是未来的基础设施

Google 的这次 13 万节点实验,不仅是秀肌肉,更是为整个云原生社区指明了方向。它证明了 Kubernetes 在经过合理的架构优化后,完全有能力承载 AI 时代最苛刻的算力需求。

内存一致性缓存工作负载感知的调度,这些在极限场景下打磨出的技术创新,最终都会反哺到普通的 GKE 集群,甚至回馈给开源社区(如 Kueue 和 KEP 提案)。

对于我们每一位架构师而言,这都是生动的一课:真正的可扩展性,不仅仅是堆砌硬件,更是对系统每一个环节——从读写路径到调度逻辑——进行极致的工程优化。

资料链接:https://cloud.google.com/blog/products/containers-kubernetes/how-we-built-a-130000-node-gke-cluster/

聊聊你对“规模极限”的看法

Google的13万节点集群,为我们展示了云原生技术栈在AI时代的巨大潜力。在你看来,Kubernetes或其他云原生技术的下一个“物理极限”会是什么?除了Google提到的这四项优化,你认为还有哪些关键技术能帮助我们突破规模的瓶颈?或者,你在自己的工作中,遇到过哪些有趣的“规模化”挑战和解决方案?

欢迎在评论区留下你的真知灼见,让我们一起探讨未来基础设施的模样!

如果这篇文章让你对大规模系统设计有了新的启发,别忘了点个【赞】和【在看】,并分享给更多对技术极限充满好奇的同伴!


还在为“复制粘贴喂AI”而烦恼?我的新专栏 AI原生开发工作流实战 将带你:

  • 告别低效,重塑开发范式
  • 驾驭AI Agent(Claude Code),实现工作流自动化
  • 从“AI使用者”进化为规范驱动开发的“工作流指挥家”

扫描下方二维码,开启你的AI原生开发之旅。


你的Go技能,是否也卡在了“熟练”到“精通”的瓶颈期?

  • 想写出更地道、更健壮的Go代码,却总在细节上踩坑?
  • 渴望提升软件设计能力,驾驭复杂Go项目却缺乏章法?
  • 想打造生产级的Go服务,却在工程化实践中屡屡受挫?

继《Go语言第一课》后,我的《Go语言进阶课》终于在极客时间与大家见面了!

我的全新极客时间专栏 《Tony Bai·Go语言进阶课》就是为这样的你量身打造!30+讲硬核内容,带你夯实语法认知,提升设计思维,锻造工程实践能力,更有实战项目串讲。

目标只有一个:助你完成从“Go熟练工”到“Go专家”的蜕变! 现在就加入,让你的Go技能再上一个新台阶!


商务合作方式:撰稿、出书、培训、在线课程、合伙创业、咨询、广告合作。如有需求,请扫描下方公众号二维码,与我私信联系。

如发现本站页面被黑,比如:挂载广告、挖矿等恶意代码,请朋友们及时联系我。十分感谢! Go语言第一课 Go语言进阶课 AI原生开发工作流实战 从 0 开始构建 Agent Harness Go语言精进之路1 Go语言精进之路2 Go语言第一课 Go语言编程指南
商务合作请联系bigwhite.cn AT aliyun.com
这里是 Tony Bai的个人Blog,欢迎访问、订阅和留言! 订阅Feed请点击上面图片

如果您觉得这里的文章对您有帮助,请扫描上方二维码进行捐赠 ,加油后的Tony Bai将会为您呈现更多精彩的文章,谢谢!

如果您希望通过微信捐赠,请用微信客户端扫描下方赞赏码:

如果您希望通过比特币或以太币捐赠,可以扫描下方二维码:

比特币:

以太币:

如果您喜欢通过微信浏览本站内容,可以扫描下方二维码,订阅本站官方微信订阅号“iamtonybai”;点击二维码,可直达本人官方微博主页^_^:
本站Powered by Digital Ocean VPS。
选择Digital Ocean VPS主机,即可获得10美元现金充值,可 免费使用两个月哟! 著名主机提供商Linode 10$优惠码:linode10,在 这里注册即可免费获 得。阿里云推荐码: 1WFZ0V立享9折!


View Tony Bai's profile on LinkedIn
DigitalOcean Referral Badge

文章

评论

  • 正在加载...

分类

标签

归档



View My Stats