Tony Bai - Part 3

11个现代Go特性：用gopls/modernize让你的代码焕然一新

四月 15, 2025
0 条评论

本文永久链接 – https://tonybai.com/2025/04/15/embrace-modern-go-style-with-gopls-modernize

大家好，我是Tony Bai。

最近在思考Go语言的发展时，不禁让我想起了当年学习C++的经历。Bjarne Stroustrup在《C++程序设计语言（特别版）》中就专门强调了“现代 C++”（Modern C++）的编程风格，鼓励使用模板、STL等新特性来编写更优雅、更高效的C++代码。

那么，我们热爱的Go语言，随着版本的不断迭代，是否也逐渐形成了一种“现代Go”（Modern Go）的风格呢？答案是肯定的。Go团队不仅在语言层面引入新特性（如泛型、range over int），也在标准库中添加了更强大、更便捷的包（如slices、maps）。

更棒的是，Go官方工具链gopls（Go Language Server Protocol的实现）中，就内置了一个名为modernize的分析器（Analyzer），专门用于帮助我们识别代码中可以用现代Go风格替代的“旧习”，并给出建议。

今天，我们就来深入了解一下gopls/modernize这个利器，看看它如何帮助我们的Go代码焕然一新，并学习一下它所倡导的11个“现代Go”风格语法要素具体包含哪些内容。

1. gopls/modernize分析器以及现代Go风格简介

gopls/modernize是golang.org/x/tools/gopls/internal/analysis/modernize 包提供的一个分析器。它的核心目标就是扫描你的Go代码，找出那些可以通过使用Go 1.18及之后版本引入的新特性或标准库函数来简化的代码片段。

modernize工具目前可以识别并建议修改多种“旧”代码模式。让我们逐一看看这些建议，并附上代码示例：

(注：以下示例中的版本号指明了该现代写法是何时被推荐或可用的)

1). 使用min/max内建函数 (Go 1.21+)

旧风格： 使用 if/else 进行条件赋值来找最大/最小值。

func findMax(a, b int) int {
    var maxVal int
    if a > b {
        maxVal = a
    } else {
        maxVal = b
    }
    return maxVal
}

现代风格： 直接调用 max 内建函数。

import "cmp" // Go 1.21 implicitly uses built-ins, Go 1.22+ might suggest cmp.Or for clarity if needed

func findMaxModern(a, b int) int {
    // Go 1.21 onwards have built-in min/max
    return max(a, b)
    // Note: for floats or custom types, use cmp.Compare from "cmp" package
}

理由： 更简洁，意图更明确。

2). 使用slices.Sort (Go 1.21+)

旧风格： 使用 sort.Slice 配合自定义比较函数对 slice 排序。

import "sort"

func sortInts(s []int) {
    sort.Slice(s, func(i, j int) bool {
        return s[i] < s[j] // Common case for ascending order
    })
}

现代风格： 使用 slices.Sort 或 slices.SortFunc / slices.SortStableFunc。

import "slices"

func sortIntsModern(s []int) {
    slices.Sort(s) // For basic ordered types
}

// For custom comparison logic:
// func sortStructsModern(items []MyStruct) {
//     slices.SortFunc(items, func(a, b MyStruct) int {
//         return cmp.Compare(a.Field, b.Field) // Using cmp.Compare (Go 1.21+)
//     })
// }

理由： slices包提供了更丰富、类型更安全的排序功能，且通常性能更好。

3). 使用 any 替代 interface{} (Go 1.18+)

旧风格： 使用 interface{} 表示任意类型。

func processAnything(v interface{}) {
    // ... process v ...
}

现代风格： 使用 any 类型别名。

func processAnythingModern(v any) {
    // ... process v ...
}

理由： any 是 interface{} 的官方别名，更简洁，更能体现其“任意类型”的语义。

4). 使用 slices.Clone 或 slices.Concat (Go 1.21+)

旧风格： 使用 append([]T(nil), s…) 来克隆 slice。

func cloneSlice(s []byte) []byte {
    return append([]byte(nil), s...)
}

现代风格： 使用 slices.Clone。

import "slices"

func cloneSliceModern(s []byte) []byte {
    return slices.Clone(s)
}

理由： slices.Clone 意图更明确，由标准库实现可能更优化。slices.Concat 则用于拼接多个 slice。

5). 使用 maps 包函数 (Go 1.21+)

旧风格： 手动写循环来拷贝或操作 map。

func copyMap(src map[string]int) map[string]int {
    dst := make(map[string]int, len(src))
    for k, v := range src {
        dst[k] = v
    }
    return dst
}

现代风格： 使用 maps.Clone 或 maps.Copy。

import "maps"

func copyMapModern(src map[string]int) map[string]int {
    return maps.Clone(src) // Clone creates a new map
}

func copyMapToExisting(dst, src map[string]int) {
     maps.Copy(dst, src) // Copy copies key-values, potentially overwriting
}

理由： maps 包提供了标准化的 map 操作，代码更简洁，不易出错。还有 maps.DeleteFunc, maps.Equal 等实用函数。

6). 使用 fmt.Appendf (Go 1.19+)

旧风格： 使用 []byte(fmt.Sprintf(…)) 来获取格式化后的字节 slice。

import "fmt"

func formatToBytes(id int, name string) []byte {
    s := fmt.Sprintf("ID=%d, Name=%s", id, name)
    return []byte(s)
}

现代风格： 使用 fmt.Appendf，通常配合 nil 作为初始 slice。

import "fmt"

func formatToBytesModern(id int, name string) []byte {
    // Appends formatted string directly to a byte slice
    return fmt.Appendf(nil, "ID=%d, Name=%s", id, name)
}

理由： fmt.Appendf 更高效，它避免了先生成 string 再转换成 []byte 的中间步骤和内存分配。

7). 在测试中使用 t.Context (Go 1.24+)

旧风格： 在测试函数中需要 cancellable context 时，使用 context.WithCancel。

import (
    "context"
    "testing"
    "time"
)

func TestSomethingWithContext(t *testing.T) {
    ctx, cancel := context.WithCancel(context.Background())
    defer cancel()

    // Use ctx in goroutines or functions that need cancellation
    go func(ctx context.Context) {
        select {
        case <-time.After(1 * time.Second):
            t.Log("Worker finished")
        case <-ctx.Done():
            t.Log("Worker cancelled")
        }
    }(ctx)

    // Simulate test work
    time.Sleep(100 * time.Millisecond)
    // Maybe cancel based on some condition, or rely on defer cancel() at end
}

现代风格： 直接使用 testing.T 提供的 Context() 方法。

import (
    "context"
    "testing"
    "time"
)

func TestSomethingWithContextModern(t *testing.T) {
    // t.Context() is automatically cancelled when the test (or subtest) finishes.
    // It may also be cancelled sooner if the test times out (e.g., using t.Deadline()).
    ctx := t.Context()

    go func(ctx context.Context) {
        select {
        case <-time.After(1 * time.Second):
            t.Log("Worker finished")
        case <-ctx.Done():
            t.Logf("Worker cancelled: %v", ctx.Err()) // Good practice to log the error
        }
    }(ctx)

    time.Sleep(100 * time.Millisecond)
}

理由： t.Context() 更方便，自动管理 context 的生命周期与测试的生命周期绑定，减少了样板代码，并能正确处理测试超时。

8). 使用 omitzero 代替 omitempty (Go 1.24+)

旧风格： 在 json 或类似 tag 中使用 omitempty，它会在字段值为其类型的零值（如 0, “”, nil, 空 slice/map）时省略该字段。但对于空结构体字段则表现不如预期：

type ConfigOld struct {
    EmptyStruct struct{} `json:",omitempty"`
}

// JSON 输出为 {"EmptyStruct":{}}

现代风格： 如果意图是“当字段值为零值时省略”，则使用 omitzero。

type ConfigModern struct {
    EmptyStruct struct{} `json:",omitzero"`
}
// JSON 输出为 {}

理由： omitzero 的语义更精确地描述了“省略零值”的行为。更多内容，可以参考我的“JSON包新提案：用“omitzero”解决编码中的空值困局”一文。

9). 使用 slices.Delete (Go 1.21+)

旧风格： 使用 append(s[:i], s[i+1]…) 来删除 slice 中的单个元素。

func deleteElement(s []int, i int) []int {
    if i < 0 || i >= len(s) {
        return s // Index out of bounds
    }
    return append(s[:i], s[i+1:]...)
}

现代风格： 使用 slices.Delete 删除一个或一段元素。

import "slices"

func deleteElementModern(s []int, i int) []int {
    if i < 0 || i >= len(s) {
        return s
    }
    // Delete element at index i
    return slices.Delete(s, i, i+1)
}

func deleteElementsModern(s []int, start, end int) []int {
     // Delete elements from index start (inclusive) to end (exclusive)
     return slices.Delete(s, start, end)
}

理由： slices.Delete 意图更明确，更通用（可以删除区间），由标准库实现可能更健壮（处理边界情况）。

10). 使用for range n (Go 1.22+)

旧风格： 使用经典的三段式 for 循环遍历 0 到 n-1。

func iterateN(n int) {
    for i := 0; i < n; i++ {
        // Use i
        _ = i
    }
}

现代风格： 使用 for range 遍历整数。

func iterateNModern(n int) {
    for i := range n { // Requires Go 1.22+
        // Use i
         _ = i
    }
}

理由： 语法更简洁。在某些情况下（虽然不常见），如果循环体没有使用 i，for range n 可能比 for i:=0; i<n; i++ 有微弱的性能优势（避免迭代变量的开销）。

11). 使用 strings.SplitSeq (Go 1.24+)

旧风格： 在循环中迭代 strings.Split 的结果。

import "strings"

func processSplits(s, sep string) {
    parts := strings.Split(s, sep)
    for _, part := range parts {
        // Process part
        _ = part
    }
}

现代风格： 如果只是为了迭代，推荐使用 strings.SplitSeq（如果 Go 版本支持）。

import "strings"

func processSplitsModern(s, sep string) {
    // SplitSeq returns an iterator, potentially more efficient
    // as it doesn't necessarily allocate the slice for all parts at once.
    for part := range strings.SplitSeq(s, sep) { // Requires Go 1.24+
        // Process part
         _ = part
    }
}

理由： strings.SplitSeq 返回一个迭代器 (iter.Seq[string])，它在迭代时才切分字符串，避免了一次性分配存储所有子串的 slice 的开销，对于大字符串和/或大量子串的情况，内存效率更高。

2. 为什么要拥抱“现代Go”风格？

通过前面modernize工具支持的现代风格的示例，我们大致可以得到三点采用现代Go风格的好处：

代码更简洁、可读性更高： 新的语言特性或标准库函数往往能用更少的代码、更清晰地表达意图。
利用标准库优化： slices、maps等新包通常经过精心设计和优化，性能和健壮性可能优于手写的等效逻辑。
与时俱进，降低维护成本： 使用社区和官方推荐的新方式，有助于保持代码库的技术先进性，也便于团队成员（尤其是新人）理解和维护。

认识到拥抱“现代 Go”风格的诸多好处，自然会问：如何使用modern工具才能帮助我们识别并实践这些风格呢？接下来我们就来看看modernize工具的用法。

3. 如何在你的项目中使用 modernize

modernize工具本身是一个命令行程序。你可以通过以下方式在你的项目根目录下运行它：

$go run golang.org/x/tools/gopls/internal/analysis/modernize/cmd/modernize@latest [flags] [package pattern]

[package pattern]：指定要扫描的包，通常我们会使用 ./… 来扫描当前目录及其所有子目录下的包。
[flags]：一些常用的标志：
- -test (boolean, default true)：是否分析测试文件 (_test.go)。默认是分析的。
- -fix (boolean, default false)：自动应用所有建议的修复。请谨慎使用，建议先人工检查或在版本控制下使用。
- -diff (boolean, default false)：如果同时使用了 -fix，此标志会让工具不直接修改文件，而是打印出 unified diff 格式的变更内容，方便预览。

执行示例：

正如我在我的两个开源项目go-cache-prog和local-gitingest中尝试的那样：

➜  /Users/tonybai/go/src/github.com/bigwhite/go-cache-prog git:(main) $ go run golang.org/x/tools/gopls/internal/analysis/modernize/cmd/modernize@latest -test ./...
/Users/tonybai/go/src/github.com/bigwhite/go-cache-prog/cmd/go-cache-prog/main.go:19:2: Loop can be simplified using slices.Contains
exit status 3

➜  /Users/tonybai/go/src/github.com/bigwhite/local-gitingest git:(main) ✗ $ go run golang.org/x/tools/gopls/internal/analysis/modernize/cmd/modernize@latest -test ./...
/Users/tonybai/go/src/github.com/bigwhite/local-gitingest/main_test.go:191:5: Loop can be simplified using slices.Contains
exit status 3

我们看到modernize的输出格式为：

文件路径:行号:列号: 建议信息。

这里的 exit status 3 通常表示 Linter 发现了问题。它提示我在这两个项目的指定位置，存在一个循环可以用 slices.Contains 来简化（这也是 modernize 支持的一个检查，虽然未在上述重点说明的现代风格列表中，但也属于简化代码的范畴）。

注意： 工具的文档提到，如果修复之间存在冲突（比如一个修复改变了代码结构，使得另一个修复不再适用或需要调整），你可能需要运行 -fix 多次，直到没有新的修复被应用。

IDE 集成：

好消息是，如果你在使用 VS Code、GoLand 等配置了 gopls 的现代 Go IDE，很多 modernize 提出的建议通常会直接以代码高亮或建议（Quick Fix / Intention Action）的形式出现在你的编辑器中，让你可以在编码时就实时地进行现代化改造。

掌握了如何在项目中使用 modernize 工具后，让我们回到最初的话题，对这个工具及其倡导的“现代 Go”风格做一些思考和总结。

4. 小结

gopls/modernize不仅仅是一个代码检查工具，它更像是Go语言演进过程中的一个向导，温和地提醒我们：“嘿，这里有更现代、可能更好的写法了！”

拥抱“现代 Go”风格，利用好 modernize 这样的工具，不仅能让我们的代码库保持活力，也能促使我们不断学习和掌握 Go 的新知识。这与当年拥抱“现代 C++”的精神是一脉相承的。

建议大家不妨在自己的项目上运行一下 modernize 工具，看看它能给你带来哪些惊喜和改进建议。也欢迎在评论区分享你使用 modernize 的经验或对“现代 Go”风格的看法！觉得这篇文章有用？点个‘在看’，分享给更多Gopher吧！

免责声明: modernize 工具及其命令行接口 golang.org/x/tools/gopls/internal/analysis/modernize/cmd/modernize 目前并非官方稳定支持的接口，未来可能会有变动。使用 -fix 功能前请务必备份或确保代码已提交到版本控制系统。

原「Gopher部落」已重装升级为「Go & AI 精进营」知识星球，快来加入星球，开启你的技术跃迁之旅吧！

我们致力于打造一个高品质的 Go 语言深度学习 与 AI 应用探索 平台。在这里，你将获得：

体系化 Go 核心进阶内容: 深入「Go原理课」、「Go进阶课」、「Go避坑课」等独家深度专栏，夯实你的 Go 内功。
前沿 Go+AI 实战赋能: 紧跟时代步伐，学习「Go+AI应用实战」、「Agent开发实战课」，掌握 AI 时代新技能。
星主 Tony Bai 亲自答疑: 遇到难题？星主第一时间为你深度解析，扫清学习障碍。
高活跃 Gopher 交流圈: 与众多优秀 Gopher 分享心得、讨论技术，碰撞思想火花。
独家资源与内容首发: 技术文章、课程更新、精选资源，第一时间触达。

衷心希望「Go & AI 精进营」能成为你学习、进步、交流的港湾。让我们在此相聚，享受技术精进的快乐！欢迎你的加入！

img{512x368}

著名云主机服务厂商DigitalOcean发布最新的主机计划，入门级Droplet配置升级为：1 core CPU、1G内存、25G高速SSD，价格6$/月。有使用DigitalOcean需求的朋友，可以打开这个链接地址：https://m.do.co/c/bff6eed92687 开启你的DO主机之路。

Gopher Daily(Gopher每日新闻) – https://gopherdaily.tonybai.com

我的联系方式：

微博(暂不可用)：https://weibo.com/bigwhite20xx
微博2：https://weibo.com/u/6484441286
博客：tonybai.com
github: https://github.com/bigwhite
Gopher Daily归档 – https://github.com/bigwhite/gopherdaily
Gopher Daily Feed订阅 – https://gopherdaily.tonybai.com/feed

商务合作方式：撰稿、出书、培训、在线课程、合伙创业、咨询、广告合作。

告别智能体孤岛：谷歌A2A协议能否成为企业AI协作的通用语？

四月 14, 2025
0 条评论

本文永久链接 – https://tonybai.com/2025/04/14/what-is-a2a-protocol

随着人工智能（AI）的飞速发展，AI 智能体（Agent）正成为企业自动化、提升生产力的关键力量。从处理日常重复任务到辅助复杂决策，智能体的应用场景日益广泛。然而，一个严峻的挑战随之而来：不同框架、不同厂商构建的智能体往往如同信息孤岛，难以有效协作，这极大地限制了它们在复杂企业环境中的潜力释放。

为了打破这一僵局，谷歌近日联合 Atlassian、Salesforce、SAP、LangChain、Cohere 等超过 50 家技术合作伙伴和领先服务提供商，共同发布并推动一个全新的开放协议——Agent2Agent(A2A)。该协议旨在为不同生态系统中的AI智能体提供一种标准的通信语言，使其能够安全地发现彼此、交换信息、协调行动，最终实现跨平台、跨应用的无缝协作。

在这篇文章中，我们就来结合示例快速了解一下A2A协议的设计哲学、核心机制、交互流程与对象模型，以及它与MCP(model context protocol)的区别。这可能是你看过的关于Agent互操作协议最清晰的解读之一。

1. A2A协议的设计哲学与核心机制

企业环境中，单一智能体往往难以应对复杂的端到端流程。例如，一个完整的客户服务请求可能需要客服智能体、订单系统智能体、物流跟踪智能体协同工作。A2A协议的诞生，正是为了满足这种日益增长的跨系统、跨智能体协作需求。

A2A的核心目标是促进智能体之间的互操作性（Interoperability），即使这些智能体基于不同的技术栈构建、不共享内部状态或工具集。谷歌及其合作伙伴在设计A2A时，明确了五大关键原则，这些原则深刻影响了协议的形态：

拥抱智能体能力 (Embrace agentic capabilities)

协议并非将智能体降级为简单的 API 或工具，而是承认并支持它们以更自然、有时甚至是非结构化的方式进行交互和协作。

基于现有标准 (Build on existing standards)

为了降低采用门槛和集成复杂度，A2A 建立在开发者熟悉的 HTTP/1.1 或 HTTP/2 之上，采用 JSON-RPC 2.0 作为请求/响应格式，并利用服务器发送事件 (Server-Sent Events, SSE) 实现流式通信。这使得 A2A 更易融入现有的企业 IT 架构。

默认安全 (Secure by default)

安全是企业级应用的基础。A2A 在设计上与 OpenAPI 的认证规范保持一致，支持如 OAuth2、API Key、JWT 等多种认证方案。关键在于，认证凭证通过标准的 HTTP Header（如 Authorization）传递，而非包含在 A2A 的 JSON 载荷中，确保协议本身与具体认证机制解耦，并强制要求服务器对每个请求进行验证。

支持长时与异步任务 (Support for long-running tasks)

许多智能体任务并非瞬时完成，可能涉及复杂计算、外部调用甚至人工介入（Human-in-the-loop）。A2A 通过任务状态管理、流式更新 (SSE) 和可选的推送通知 (Push Notifications) 机制，原生支持这类耗时较长的异步交互场景。

模态无关 (Modality agnostic)

智能体的交互远不止文本。A2A 的 Part 数据结构设计使其能够承载文本 (TextPart)、文件 (FilePart，支持内联 Base64 或 URI 引用，可用于图像、文档等) 和结构化数据 (DataPart，用于表单、JSON 对象等)。这为未来支持音频流、视频流等多模态交互奠定了基础。

2. A2A 的核心交互流程与对象模型

A2A 定义了一个清晰的客户端-服务器交互模型。一个“客户端”智能体（发起请求方）与一个“远程”智能体（A2A 服务器，处理请求方）通过一系列标准化的步骤进行通信：

Agent交互的第一步是发现。

2.1 发现 (Discovery)

客户端首先需要找到并了解远程智能体的能力。这通过获取远程智能体的Agent Card实现。Agent Card是一个JSON 文件，通常发布在服务器的熟知路径下，推荐路径为：

https://base url/.well-known/agent.json

Agent Card中包含了智能体的名称、描述、服务 URL、版本、提供商信息、支持的核心能力 (capabilities 如 streaming, pushNotifications)、认证要求 (authentication)、默认输入/输出模式 (defaultInputModes/defaultOutputModes) 以及最重要的——它所具备的技能列表 (skills)。每个技能 (AgentSkill) 有 ID、名称、描述、标签、示例等，帮助客户端判断该智能体是否适合处理特定任务。

下面是A2A协议文档中Agent Card的一个示例，我们来看一下：

//agent card
{
  "name": "Google Maps Agent",
  "description": "Plan routes, remember places, and generate directions",
  "url": "https://maps-agent.google.com",
  "provider": {
    "organization": "Google",
    "url": "https://google.com"
  },
  "version": "1.0.0",
  "authentication": {
    "schemes": "OAuth2"
  },
  "defaultInputModes": ["text/plain"],
  "defaultOutputModes": ["text/plain", "application/html"],
  "capabilities": {
    "streaming": true,
    "pushNotifications": false
  },
  "skills": [
    {
      "id": "route-planner",
      "name": "Route planning",
      "description": "Helps plan routing between two locations",
      "tags": ["maps", "routing", "navigation"],
      "examples": [
        "plan my route from Sunnyvale to Mountain View",
        "what's the commute time from Sunnyvale to San Francisco at 9AM",
        "create turn by turn directions from Sunnyvale to Mountain View"
      ],
      // can return a video of the route
      "outputModes": ["application/html", "video/mp4"]
    },
    {
      "id": "custom-map",
      "name": "My Map",
      "description": "Manage a custom map with your own saved places",
      "tags": ["custom-map", "saved-places"],
      "examples": [
        "show me my favorite restaurants on the map",
        "create a visual of all places I've visited in the past year"
      ],
      "outputModes": ["application/html"]
    }
  ]
}

这个JSON对象是一个典型的Agent Card实例，它为”Google Maps Agent”提供了一份详细的说明书，旨在让其他客户端（可能是用户界面、应用程序或其他AI智能体）了解如何发现、连接和使用它。下面我们逐一解析其关键字段：

基本信息 (Identification & Discovery):
- “name”: “Google Maps Agent”: 这是该智能体的人类可读名称，简洁明了地标识了它的身份。
- “description”: “Plan routes, remember places, and generate directions”: 提供了更详细的功能概述，帮助客户端快速理解该智能体的核心用途。
- “url”: “https://maps-agent.google.com”: 这是至关重要的基础服务端点 URL。客户端将向这个 URL（或其下的特定路径，如 /a2a，具体取决于实现）发送 A2A 协议的 JSON-RPC 请求。
- “provider”: { “organization”: “Google”, “url”: “https://google.com” }: 指明了服务提供商是 Google，增加了来源的可信度，并提供了组织信息。
- “version”: “1.0.0″: 表明了当前 Agent Card 所描述的智能体实现的版本号，有助于客户端进行版本兼容性管理。
连接与交互要求 (Connection & Interaction Requirements):
- “authentication”: { “schemes”: “OAuth2″ }: 这个字段明确了与该智能体交互所需的认证机制。客户端在发送请求时，需要通过标准的 HTTP Authorization 头携带有效的 OAuth2 令牌。这是实现安全通信的关键。
- “defaultInputModes”: ["text/plain"]: 定义了该智能体默认接受的输入内容类型。除非特定技能另有说明，否则它主要期望接收纯文本输入。
- “defaultOutputModes”: ["text/plain", "application/html"]: 定义了该智能体默认能够生成的输出内容类型。它可以返回纯文本或 HTML 格式的响应。
核心协议能力 (Core Protocol Capabilities):
- “capabilities”: { “streaming”: true, “pushNotifications”: false }: 这个对象说明了该智能体支持的 A2A 协议高级特性。
  - “streaming”: true: 表示该智能体支持流式响应。客户端可以使用 tasks/sendSubscribe 方法发起请求，并通过 SSE 实时接收任务状态和结果更新。
  - “pushNotifications”: false: 表示该智能体不支持推送通知。即使客户端配置了 webhook，该智能体也不会在连接断开后主动推送更新。
具体技能清单 (Skills List):
- “skills”: [...]: 这是 Agent Card 的核心部分，详细列出了该智能体具体能执行的任务类型（技能）。客户端可以根据这个列表来判断该智能体是否具备完成特定用户请求的能力。
- 技能 1: Route Planning (route-planner)
  - “id”: 技能的唯一标识符。
  - “name”: 技能的人类可读名称。
  - “description”: 详细描述该技能的作用。
  - “tags”: [...]: 相关的标签，便于分类和搜索。
  - “examples”: [...]: 非常重要，提供了具体的用户请求示例。这极大地帮助了客户端（尤其是其他 AI 智能体）理解如何有效地触发和使用这项技能。
  - “outputModes”: ["application/html", "video/mp4"]: 覆盖了默认输出模式。这个技能特别指出，除了默认的文本和 HTML，它还能生成 video/mp4 格式的输出（例如，路线演示视频）。这展示了 A2A 协议的灵活性，允许不同技能具有不同的输出能力。
- 技能 2: Custom Map (custom-map)
  - 同样包含 id, name, description, tags, examples。
  - “outputModes”: ["application/html"]: 这个技能的输出模式仅限于 HTML，它也覆盖了默认设置，但没有像 route-planner 那样增加额外的视频格式。

我们看到：客户端（无论是人类开发者阅读，还是另一个程序解析）可以通过这份”名片”，准确地了解如何与”Google Maps Agent”进行有效且安全的交互，选择合适的技能来满足用户需求，并预期可能收到的响应格式。这正是A2A协议实现智能体互操作性的基石。

2.2 任务启动与管理 (Task Initiation & Management)

一旦Agent相互发现后，后续所有交互都围绕Task对象展开。Task是A2A中的核心工作单元，代表一个需要完成的目标，拥有唯一的id和可选的 sessionId (用于关联同一会话中的多个任务)。

客户端通过向服务器的 A2A 端点发送 JSON-RPC 请求来启动或继续一个任务。主要方法包括：

tasks/send: 用于发送初始请求或在多轮对话中发送后续用户输入。服务器处理后同步返回最终的 Task 状态及结果 (Artifacts)。适用于短时任务或客户端选择轮询获取更新的场景。
tasks/get: 用于查询指定 id 的任务状态和已生成的 Artifacts，可选择性地获取最近的 N 条消息历史 (historyLength)。
tasks/cancel: 请求取消一个正在进行的任务。
tasks/sendSubscribe: 同样用于发送消息，但服务器会通过SSE 连接持续推送任务进展。适用于长时任务，客户端可以实时接收更新。这是一种流工作模式。

Task 对象包含当前状态 (status)，该状态会经历一个生命周期：submitted -> working -> (可能进入 input-required) -> completed / failed / canceled。

下面是一个发送task和接收task response的示例。我们先看请求，具体字段的含义在示例的注释中，后续就不赘述了。

//Request
{
  "jsonrpc": "2.0", // 1. 标准 JSON-RPC 版本声明
  "id": 1,          // 2. 客户端生成的请求 ID，用于匹配响应
  "method":"tasks/send", // 3. 调用的 A2A 方法：发送消息以启动或继续任务
  "params": {       // 4. 方法参数
    "id": "de38c76d-d54c-436c-8b9f-4c2703648d64", // 5. 任务 ID (由客户端生成)
    "message": {   // 6. 要发送的消息内容
      "role":"user", // 7. 消息发送者角色：用户 (由客户端代理)
      "parts": [{   // 8. 消息内容部分
        "type":"text", // 9. 内容类型：纯文本
        "text": "tell me a joke" // 10. 具体的文本内容
      }]
    },
    "metadata": {} // 11. 可选的元数据，这里为空
  }
}

这个请求是客户端在启动一个新任务（ID: de38c…），并通过 tasks/send 方法发送了一个包含文本 “tell me a joke” 的用户消息。

下面是该请求对应的响应体的内容：

//Response
{
  "jsonrpc": "2.0", // 1. 标准 JSON-RPC 版本声明
  "id": 1,          // 2. 响应的 ID，与请求的 ID 匹配
  "result": {       // 3. 请求成功，包含结果数据
    "id": "de38c76d-d54c-436c-8b9f-4c2703648d64", // 4. 任务 ID，与请求中的一致
    "sessionId": "c295ea44-7543-4f78-b524-7a38915ad6e4", // 5. 会话 ID (由服务器生成)
    "status": {    // 6. 任务的当前状态
      "state": "completed" // 7. 任务状态：已完成
    },
    "artifacts": [{ // 8. 任务生成的制品 (结果)
      "name":"joke", // 9. 制品名称
      "parts": [{  // 10. 制品内容部分
          "type":"text", // 11. 内容类型：纯文本
          "text":"Why did the chicken cross the road? To get to the other side!" // 12. 具体的笑话文本
        }]
      }],
    "metadata": {} // 13. 可选的元数据，这里为空
  }
}

这个响应表明服务器成功接收并处理了 ID 为 de38c… 的任务请求。任务已经完成 (completed)，服务器为此任务分配了一个会话 ID (c295ea…)，并将结果（笑话文本）封装在一个名为 “joke” 的 Artifact 中返回给了客户端。

上面这个简单的示例清晰地展示了A2A协议中最基础的一种交互模式。

通过task可以承载Message和Artifact，而Message和Artifact各自又可以分为多个Part，它们的对象关系图如下：

Task 是状态和流程的容器。 Message 是 Task 请求过程中的通信载体。 Artifact 是 Task 产生的结果载体。 Part 是构成 Message 和 Artifact 内容的基本单元。

下面我们就来看看Message和Artifact这两种对象。

2.3 通信载体：消息与部件 (Communication: Message & Part)

Message(消息)包含任何非人工制品的内容。这可以包括智能体的想法、用户上下文、指令、错误、状态或元数据等。客户端和服务器之间的交流通过Message对象进行。Message 标识了发送方 (role: “user” 或 “agent”)，并包含一个或多个Part 对象。

Part 是实际内容的载体，可以是：

TextPart: 包含 text 字段。
FilePart: 包含 file 对象，该对象内含 mimeType、name，以及 bytes (Base64 编码内容) 或 uri (文件链接)。
DataPart: 包含 data 字段，承载任意 JSON 结构，常用于表单提交或结构化数据交换。

在上面发送task的示例中我们已经看到了Message的一个示例(下面再摘录一下其中内容，这是一个TextPart)：

"message": {   // 6. 要发送的消息内容
  "role":"user", // 7. 消息发送者角色：用户 (由客户端代理)
  "parts": [{   // 8. 消息内容部分
    "type":"text", // 9. 内容类型：纯文本
    "text": "tell me a joke" // 10. 具体的文本内容
  }]
},

我们再来看看Artifact。

2.4 结果交付：制品 (Result Delivery: Artifact)

当智能体完成任务或产生阶段性结果时，它会生成Artifact 对象。Artifact代表任务的最终或中间输出。

一个 Artifact 可以有名称 (name)、描述 (description)，并像 Message 一样包含一个或多个Part。例如，一个生成报告的任务可能产生一个包含 TextPart (报告文本) 和 FilePart (PDF 文件) 的 Artifact。

在上面示例的应答中，我们已经见识过Aritfact了：

"artifacts": [{ // 8. 任务生成的制品 (结果)
  "name":"joke", // 9. 制品名称
  "parts": [{  // 10. 制品内容部分
      "type":"text", // 11. 内容类型：纯文本
      "text":"Why did the chicken cross the road? To get to the other side!"
    }
  }],

此外，在流式传输中，Artifact 可以通过 TaskArtifactUpdateEvent 分块 (append: true) 发送，并用 lastChunk: true 标记结束。

2.5 异步与实时更新：流式传输与推送通知

A2A支持通过SSE实现的流式传输。当使用 tasks/sendSubscribe 时，服务器通过 SSE 连接发送事件流。主要事件类型包括：

TaskStatusUpdateEvent: 通知任务状态 (status) 的变化，包含状态码、可选的消息 (message) 和时间戳 (timestamp)。final: true 标记任务终结。
TaskArtifactUpdateEvent: 流式传输 Artifact 的内容。

下面是一个流式传输的示例(主要是通过TaskArtifactUpdateEvent传输Artifact的内容)：

//Request
{
  "method":"tasks/sendSubscribe",
  "params": {
    "id": "de38c76d-d54c-436c-8b9f-4c2703648d64",
    "sessionId": "c295ea44-7543-4f78-b524-7a38915ad6e4",
    "message": {
      "role":"user",
      "parts": [{
        "type":"text",
        "text": "write a long paper describing the attached pictures"
      },{
        "type":"file",
        "file": {
           "mimeType": "image/png",
           "data":"<base64-encoded-content>"
        }
      }]
    },
    "metadata": {}
  }
}

//Response
data: {
  "jsonrpc": "2.0",
  "id": 1,
  "result": {
    "id": 1,
    "status": {
      "state": "working",
      "timestamp":"2025-04-02T16:59:25.331844"
    },
    "final": false
  }
}

data: {
  "jsonrpc": "2.0",
  "id": 1,
  "result": {
    "id": 1,
    "artifact": [
      "parts": [
        {"type":"text", "text": "<section 1...>"}
      ],
      "index": 0,
      "append": false,
      "lastChunk": false
    ]
  }
}
data: {
  "jsonrpc": "2.0",
  "id": 1,
  "result": {
    "id": 1,
    "artifact": [
      "parts": [
        {"type":"text", "text": "<section 2...>"}
      ],
      "index": 0,
      "append": true,
      "lastChunk": false
    ]
  }
}
data: {
  "jsonrpc": "2.0",
  "id": 1,
  "result": {
    "id": 1,
    "artifact": [
      "parts": [
        {"type":"text", "text": "<section 3...>"}
      ],
      "index": 0,
      "append": true,
      "lastChunk": true
    ]
  }
}

data: {
  "jsonrpc": "2.0",
  "id": 1,
  "result": {
    "id": 1,
    "status": {
      "state": "completed",
      "timestamp":"2025-04-02T16:59:35.331844"
    },
    "final": true
  }
}

A2A还支持推送通知 (Push Notifications)，允许服务器在客户端断开连接后，仍能将任务状态更新发送到客户端预先配置的 webhook URL。客户端通过 tasks/pushNotification/set 提供 webhook URL 和可选的认证信息。服务器通过 tasks/pushNotification/get 查询配置。这对于需要人工介入或极长时间运行的任务至关重要。

最后再看看多轮交互。

2.6 多轮交互 (Multi-turn Conversations)

当任务状态变为 input-required 时，服务器发送的 TaskStatus 对象中的 message 会指示需要用户提供什么信息（可能是文本提示，也可能是包含 DataPart 的表单结构）。客户端获取用户输入后，再次调用 tasks/send (携带相同的 id 和 sessionId)，将用户响应作为新的 Message 发送给服务器，任务得以继续。

下面是协议规范中一个多轮交互的示例：

//Request - seq 1
{
  "jsonrpc": "2.0",
  "id": 1,
  "method":"tasks/send",
  "params": {
    "id": "de38c76d-d54c-436c-8b9f-4c2703648d64",
    "message": {
      "role":"user",
      "parts": [{
        "type":"text",
        "text": "request a new phone for me"
      }]
    },
    "metadata": {}
  }
}
//Response - seq 2
{
  "jsonrpc": "2.0",
  "id": 1,
  "result": {
    "id": "de38c76d-d54c-436c-8b9f-4c2703648d64",
    "sessionId": "c295ea44-7543-4f78-b524-7a38915ad6e4",
    "status": {
      "state": "input-required",
      "message": {
        "parts": [{
          "type":"text",
          "text":"Select a phone type (iPhone/Android)"
        }]
      }
    },
    "metadata": {}
  }
}
//Request - seq 3
{
  "jsonrpc": "2.0",
  "id": 2,
  "method":"tasks/send",
  "params": {
    "id": "de38c76d-d54c-436c-8b9f-4c2703648d64",
    "sessionId": "c295ea44-7543-4f78-b524-7a38915ad6e4",
    "message": {
      "role":"user",
      "parts": [{
        "type":"text",
        "text": "Android"
      }]
    },
    "metadata": {}
  }
}
//Response - seq 4
{
  "jsonrpc": "2.0",
  "id": 2,
  "result": {
    "id": 1,
    "sessionId": "c295ea44-7543-4f78-b524-7a38915ad6e4",
    "status": {
      "state": "completed"
    },
    "artifacts": [{
      "name": "order-confirmation",
      "parts": [{
          "type":"text",
          "text":"I have ordered a new Android device for you. Your request number is R12443"
        }],
      "metadata": {}
    }],
    "metadata": {}
  }
}

3. A2A与MCP：协同而非竞争，共筑智能体生态

在讨论智能体互操作性时，另一个常被提及的协议是 Anthropic 推出的 Model Context Protocol (MCP)。理解 A2A 与 MCP 的区别与联系，对于把握当前智能体生态的发展方向至关重要。谷歌在发布 A2A 时也明确指出，两者是互补而非竞争关系。正如下图所示：

图来自网络

上图形象地揭示了两者核心关注点的不同：

A2A (Agent2Agent): 聚焦于智能体之间的通信与协作
- 核心目标: A2A 的设计初衷是为了解决不同 AI 智能体之间如何进行有效交互的问题。它定义了一套标准的协议，使得由不同供应商、使用不同框架构建的、甚至内部逻辑互不透明（Opaque）的智能体，能够相互发现、理解对方的能力（通过 Agent Card）、协商交互方式（如数据格式、模态），并协同完成更复杂的任务。
- 交互模式: 是 Agent <-> Agent。它关心的是智能体 A 如何将一个任务或子任务委托给智能体 B，如何传递必要的上下文，如何管理任务状态，以及如何接收来自智能体 B 的结果或需要进一步输入的请求。
- 应用场景: 主要用于构建多智能体系统 (Multi-Agent Systems)，实现跨系统、跨应用的企业级工作流自动化，需要多个具有不同专长的智能体协同工作的场景。
MCP (Model Context Protocol): 聚焦于智能体与工具/API 的通信
- 核心目标: MCP 主要关注的是单个 AI 智能体如何更有效地理解和使用外部工具或 API。它提供了一种标准化的方式来描述工具的功能、参数、以及如何将相关上下文信息传递给模型，从而提高模型调用工具的准确性和可靠性。
- 交互模式: 本质上是 Agent <-> API/Tool。它关心的是智能体如何理解一个外部函数（如天气查询 API、数据库查询工具）并准确地调用它，以及如何处理返回结果。
- 应用场景: 主要用于增强单个智能体的能力，让它能够像人类使用软件一样，通过调用各种工具来完成自身无法独立完成的任务，例如联网搜索、代码执行、访问专有数据等。

综上，A2A和MCP是妥妥的互补关系：A2A致力于解决“智能体们如何互相交谈与合作” 的问题。而MCP则致力于解决“一个智能体如何更好地使用它的工具箱”的问题。

在一个复杂的系统中，两者可以很好地协同工作：一个主智能体可以使用 MCP 来理解和调用其内部集成的各种工具（如数据库查询、日历管理 API）；当需要与其他独立的、专门化的智能体（如财务审批智能体、报告生成智能体）协作时，它可以通过 A2A 协议与这些外部智能体进行通信和任务协调。因此，将 A2A 和 MCP 视为智能体生态建设中不同层面的解决方案更为准确。A2A 构建了智能体之间的“社交网络”，而 MCP 则增强了每个智能体个体的“动手能力”。两者共同推动着更强大、更灵活、更具适应性的 AI 智能体系统的发展。

4. 小结

Agent2Agent (A2A) 协议是谷歌及其庞大生态伙伴网络为解决 AI 智能体互操作性难题而迈出的关键一步。通过提供一个基于开放标准、注重安全和灵活性的通信框架，A2A有望成为连接不同智能体、打通企业复杂流程的桥梁，从而真正释放 AI 在自动化和生产力提升方面的潜力。

虽然 A2A 目前仍处于草案阶段，但其清晰的设计理念、强大的合作伙伴支持以及开放的社区模式，都预示着其广阔的应用前景。谷歌计划在今年晚些时候推出生产就绪版本，并持续根据社区反馈进行迭代优化，未来可能涵盖更复杂的动态能力协商、任务内UX调整等高级特性。

A2A 的旅程才刚刚开始。它的最终成功将取决于业界的广泛采纳和开发者社区的积极贡献。我们期待 A2A 能够引领 AI 智能体进入一个更加协同、高效、互联互通的新时代。

对 A2A 感兴趣的开发者可以通过以下途径深入了解和参与：

官方文档: A2A 官方文档网站提供概览和深入主题。
协议规范: JSON 协议规范定义了所有数据结构和方法。
代码示例: 官方 GitHub 仓库 (google/A2A) 提供了 Python 和 JavaScript 的客户端/服务器实现，以及与 CrewAI、LangGraph、Genkit 等框架集成的智能体示例。
社区参与: 通过 GitHub Discussions 交流，通过 GitHub Issues 提交反馈，或使用谷歌表单提供私密反馈。