Google 开源 AX 与 Agent Substrate:构建以 Agent 为核心的云原生计算底座

本文永久链接 – https://tonybai.com/2026/05/23/google-open-sources-ax-and-agent-substrate-agent-centric-cloud-native-foundation
大家好,我是Tony Bai。
随着大语言模型(LLM)与应用场景的深度融合,AI 正在从单纯的“聊天对话框”快速演进为具备长期运行、自主工具调用和复杂任务编排能力的 AI Agent(智能体)。
在生产环境中,这些 Agent 展现出与传统微服务截然不同的负载特征:它们是高度非线性的、需要频繁执行不可信代码(如动态生成的 Python 脚本)、在等待人类确认(HITL,人类在环)时长期处于闲置状态,同时又会在瞬时产生极其高频的子秒级(Sub-second)工具调用。
传统的容器和虚拟机调度架构(如标准的 Kubernetes)面对这种数以百万计、高密度、长生命周期但又极度高并发的“智能体负载(Agentic Workflows)”时,在隔离安全性、调度时延与算力浪费上面临严重的物理局限。
针对这一工程痛点,Google 在 Google I/O ’26 大会上给出了其深思熟虑的系统级回应。这并非一个单一工具的发布,而是一套分层解耦的云原生 Agent 堆栈的整体亮相。

Google 定义的“三层 Agent 堆栈”,其中包含了:
- 应用运行时(Agent Runtime):开源项目 Agent Executor(AX),专注于可靠的状态编排、连接恢复与执行审计。
- 高密度计算与调度层(Compute Plane):开源项目 Agent Substrate,专注于海量闲置 Agent 的极速挂起/恢复与去中心化控制平面调度。
- 安全隔离层(Sandbox Layer):已正式商用的 GKE Agent Sandbox,基于 gVisor/MicroVM 技术,提供低时延、强隔离的运行沙箱。
本文将拆解这一套以 Agent 为负载单元的新型云原生抽象层,揭示 Google 是如何重新定义大模型时代的分布式系统底座的。

架构解密:从基础设施到应用层的“三层 Agent 堆栈”
要理解这一套复杂的系统,我们需要像拆解传统 TCP/IP 协议栈一样,将其自底向上划分为四个物理层级:

这种分层解耦的系统设计,标志着 AI 应用开发正式告别了“框架包揽一切”的单体混沌状态,进入了精细化、高可用的系统工程时代。
底层解局:Agent Substrate 与 Sandbox 是如何解决物理局限的?
传统的 Kubernetes 是为了支撑长期运行、状态相对稳定的“微服务(Microservices)”而设计的。如果直接将数百万个 Agent 部署为普通的 K8s Pod,系统会迅速面临崩溃:
- 内存与算力浪费:许多 Agent 处于非激活状态(等待人类输入或调度触发),如果让它们的 Pod 持续在线,会产生天文数字的算力账单。
- 控制面过载:数百万个 Agent 产生的子秒级内部工具调用,如果全部经过传统的 K8s API Server 进行调度和授权,会直接导致 K8s 控制平面瘫痪。
- 安全防线脆弱:Agent 具有动态执行解释型代码(如本地运行一段临时生成的 Python 来计算数据)的本能,一旦逃逸,将危害宿主机安全。
为此,Google 联合 GKE 团队和 Kubernetes 社区,推出了 Agent Substrate 与 Agent Sandbox:
1. 基于 gVisor 的强物理隔离(Ironclad Security)
GKE Agent Sandbox 默认集成了开源的安全容器沙箱 gVisor。
它在不可信的 Agent 应用代码与 Linux 内核之间插入了一个名为 Sentry 的用户态内核。所有 Agent 试图执行的系统调用(Syscalls)都会在用户态被拦截、审计并安全执行。这确保了即便 Agent 生成的代码带有恶意,也绝无可能穿透容器逃逸到宿主机上,实现了生产级的“Secure-by-design”。
2. Pod 快照技术与冷启动消除(Reduce Idle Compute & Low Latency)
为了消灭 Agent 闲置时的算力浪费,Agent Substrate 引入了 Pod 快照技术(Pod Snapshots):
- 主动挂起(Suspend):当一个 Agent 进入休眠或长时等待状态时,Agent Substrate 捕获其完整的运行状态并制作快照,释放其占用的物理 CPU 与内存资源。
- 瞬时恢复(Resume):当事件触发或用户响应时,系统通过集成的 温水池(Warm Pool) 技术,利用快照快速恢复运行。
根据 Google Cloud 的官方测评,GKE Agent Sandbox 能够在每秒启动 300 个沙箱的高并发压力下,保证 90% 的分配在 200 毫秒内完成。这几乎抹平了传统安全容器长达数秒的冷启动时延,真正做到了“随用随起,用完即挂”。

应用层编排:Google AX 如何行使“指挥官”职责?
在底层的 Agent Substrate 提供了极致的物理隔离与快速调度能力后,位于上层的 Agent Executor (AX) 运行时则真正扮演起了“状态与业务编排指挥官”的角色。

AX 的核心设计并不是去触碰模型细节,而是通过 Single-Writer 架构 和 Durable Execution(持久化执行) 来保障 Agentic 循环的绝对可靠:

1. 轨迹分支(Trajectory Branching)与分支克隆(Forking)
在复杂决策中,开发者往往希望 Agent 能像写代码一样,在某个关键节点“分叉(Fork)”去尝试多条不同的规划路径,在评估各路径的优劣后再做最终合并。
由于 AX 底层维护了强一致性的持久化事件日志,它原生提供了 ax fork 功能:
ax fork \
--src-conversation 38460323-9a78-41cb-8991-022b0ff2c19c \
--dest-conversation e5e26e38-53a2-4f22-b1cb-ae867357df83 \
--src-seq 12
开发者可以直接在指定的事件序列号(–src-seq 12)处,克隆出一条全新的、独立的执行轨迹(Trajectory)。这让 AI 在多路径探索、蒙特卡洛树搜索(MCTS)等高级推理算法中的应用变得异常简单和标准。
2. 会话一致性(Session Consistency)
在多客户端并发控制或分布式协作中,多个进程可能同时试图更新同一个 Agent 的会话状态。AX 的单写入者(Single-Writer)架构通过统一的序列号控制机制,彻底避免了因并发竞争(Race Conditions)导致的状态脏写与损坏。
统一的工程视角:Go 的系统级胶水作用
如果我们仔细观察这套三层架构,会发现一个极具工程美学的现象:
- 最底层的 Kubernetes 与 GKE Sandbox:由 Go 语言统治。
- 中间层的 Agent Substrate 与 AX:同样是由 Go 语言构建(github.com/google/ax 和 github.com/agent-substrate/substrate)。
- 最上层的 Agent 应用与框架:则可以使用 Python(如 LangChain、ADK)来尽情发挥,当然如果你依然要使用Go,比如adk-go,来开发Agent应用也是非常棒的选择。
这一架构再次印证了我们在 AI 系统工程中的理性认知:运行时底层是系统级工程(System Engineering),应用层是模型算法工程(Algorithm Engineering)。
Go 语言在这里扮演了不可替代的“系统级胶水”角色:它将高密度调度、gRPC 双向流、持久化快照以及隔离沙箱等硬核的系统级原语,封装成极其简单易用的 CLI 和 API,让上层的应用开发者能够专注在 Prompt 与模型逻辑上。
小结
在看完 Google 发布的这一套以 Agent 为第一公民的云原生计算底座后,作为软件工程师,我们应该感到无比的兴奋。
大模型确实降低了写业务逻辑代码的门槛,甚至让“AI 自动编程”成为可能。但正如 Google 资深软件工程师 Tim Hockin(Kubernetes 的共同创始人之一)和 Brandon Royal 的联手探索所展示的那样:如何在大规模、高密度、异构的物理硬件集群中,保障这些 AI 智能体安全、高效、廉价地运转,是一个极其深邃、且刚刚拉开序幕的分布式系统课题。
- 谁来设计高密度的内存挂起与快照算法?
- 谁来在网络边界保障 gVisor 沙箱的安全网络策略?
- 谁来在 AX 层面设计多 Agent 协作时的数据一致性协议?
这些问题,AI 无法自己解决,它需要那些真正懂得底层计算机制、网络协议和系统调度的优秀工程师。
随着大模型和 Agent 的普及,软件工程正在经历一场从“单机时代”迈向“网格化 Agent 集群时代”的伟大战役。掌握这一套新型基础设施设计哲学与开发范式的架构师们,正在迎来属于他们的、前所未有的黄金时代。
资料链接:
- https://x.com/rakyll/status/2057129537553785093
- https://cloud.google.com/blog/products/containers-kubernetes/bringing-you-agent-sandbox-on-gke-and-agent-substrate
- https://cloud.google.com/blog/products/ai-machine-learning/agent-executor-googles-distributed-agent-runtime
- https://github.com/agent-substrate/substrate
- https://github.com/google/ax
- https://github.com/kubernetes-sigs/agent-sandbox
✍️ 今日的深度思考题:
当底层的 GKE Sandbox 能够将 Agent 启动时延压低至 200 毫秒以内、且支持自动挂起时,你会如何重新设计你的多 Agent 编排逻辑?这会给你的服务器算力账单带来怎样的改变?
欢迎在评论区留下你对这一套“Agent 时代 K8s 抽象层”的看法,我们共同探讨云原生的未来!
还在为写 Agent 框架频频死循环、上下文爆炸而束手无策?我的新专栏 《从0 开始构建 Agent Harness》 将带你:
- 抛弃臃肿框架,回归“驾驭工程 (Harness Engineering)”的第一性原理
- 用 Go 语言手写 ReAct 循环、并发拦截与上下文压缩引擎等,复刻极简OpenClaw
- 构建坚不可摧的 Safety Middleware 与飞书人工审批防线
- 在底层实现 Token 成本审计、链路追踪与自动化跑分评估
- 从“调包侠”进化为掌控大模型边界的“AI 操作系统架构师”
扫描下方二维码,开启从 0 开始构建Agent Harness 的实战之旅。

原「Gopher部落」已重装升级为「Go & AI 精进营」知识星球,快来加入星球,开启你的技术跃迁之旅吧!
我们致力于打造一个高品质的 Go 语言深度学习 与 AI 应用探索 平台。在这里,你将获得:
- 体系化 Go 核心进阶内容: 深入「Go原理课」、「Go进阶课」、「Go避坑课」等独家深度专栏,夯实你的 Go 内功。
- 前沿 Go+AI 实战赋能: 紧跟时代步伐,学习「Go+AI应用实战」、「Agent开发实战课」、「Agentic软件工程课」、「Claude Code开发工作流实战课」、「OpenClaw实战分享」等,掌握 AI 时代新技能。
- 星主 Tony Bai 亲自答疑: 遇到难题?星主第一时间为你深度解析,扫清学习障碍。
- 高活跃 Gopher 交流圈: 与众多优秀 Gopher 分享心得、讨论技术,碰撞思想火花。
- 独家资源与内容首发: 技术文章、课程更新、精选资源,第一时间触达。
衷心希望「Go & AI 精进营」能成为你学习、进步、交流的港湾。让我们在此相聚,享受技术精进的快乐!欢迎你的加入!

商务合作方式:撰稿、出书、培训、在线课程、合伙创业、咨询、广告合作。如有需求,请扫描下方公众号二维码,与我私信联系。



评论