runtime - Tony Bai

标签 runtime 下的文章

Go json/v2实战：告别内存爆炸，掌握真流式Marshal和Unmarshal

八月 9, 2025
0 条评论

本文永久链接 – https://tonybai.com/2025/08/09/true-streaming-support-in-jsonv2

大家好，我是Tony Bai。

Go 开发者长期以来面临一个痛点：标准库 encoding/json 在处理大型 JSON 数据时，即使使用 Encoder/Decoder，也因其内部的全量缓冲机制而导致巨大的内存开销。备受期待的 encoding/json/v2 提案（#71497）旨在从根本上解决这一问题。通过引入全新的底层包 encoding/json/jsontext，v2 实现了真正的流式处理能力。本文将通过具体的、可量化的基准测试，向你展示 v1 的内存陷阱，并演示如何使用 json/v2 高效地实现流式处理大规模 JSON 数据，彻底告别内存爆炸的烦恼。

json/v1 的“伪流”之痛：一个内存陷阱基准

为了直观地感受 json/v1 在处理大数据时的局限性，我们来建立一个基准测试。我们将分别进行编码（Marshal）和解码（Unmarshal）操作，并观察其内存使用情况。

关于内存评估：我们通过比较操作前后的 runtime.MemStats.TotalAlloc 来精确测量该操作自身导致的堆内存总分配量。一个真正的流式处理，其内存分配量应该是一个很小的常数（例如，I/O 缓冲区的大小），而与数据总量无关。

场景一：v1 编码一个巨大的 JSON 数组

我们创建一个包含 100 万个空结构体的 slice，然后使用 json.Encoder 将其写入 io.Discard。

// jsonv2-streaming/v1/marshal.go
package main

import (
    "encoding/json"
    "io"
    "log"
    "runtime"
)

func main() {
    const numRecords = 1_000_000
    in := make([]struct{}, numRecords)
    out := io.Discard

    // 多次 GC 以清理 sync.Pools，确保测量准确
    for i := 0; i < 5; i++ {
        runtime.GC()
    }

    var statsBefore runtime.MemStats
    runtime.ReadMemStats(&statsBefore)

    log.Println("Starting to encode with json/v1...")
    encoder := json.NewEncoder(out)
    if err := encoder.Encode(&in); err != nil {
        log.Fatalf("v1 Encode failed: %v", err)
    }
    log.Println("Encode finished.")

    var statsAfter runtime.MemStats
    runtime.ReadMemStats(&statsAfter)

    allocBytes := statsAfter.TotalAlloc - statsBefore.TotalAlloc
    log.Printf("Total bytes allocated during Encode: %d bytes (%.2f MiB)", allocBytes, float64(allocBytes)/1024/1024)
}

分析：当你运行此程序，会看到总分配字节数是一个巨大的数字，通常是几兆字节 (MiB)。这是因为 json.Encoder 必须先在内存中将整个 slice 序列化成一个完整的、约几MB（{} 乘以 100 万）的 JSON 字符串，然后才开始写入。这个巨大的字符串就是内存分配的来源。

在我的Mac上，这个程序的输出如下：

$go run unmarshal.go
2025/08/09 13:38:47 Starting to decode with json/v1...
2025/08/09 13:38:47 Decode finished.
2025/08/09 13:38:47 Total bytes allocated during Decode: 8394096 bytes (8.01 MiB)

下面再来看看v1版本的json解码。

场景二：v1 解码一个巨大的 JSON 数组

现在，我们构造一个代表百万空对象的 JSON 字符串，并使用 json.Decoder 解码。

// jsonv2-streaming/v1/unmarshal.go
package main

import (
    "encoding/json"
    "log"
    "runtime"
    "strings"
)

func main() {
    const numRecords = 1_000_000
    // 构造一个巨大的 JSON 数组字符串，约 2MB
    value := "[" + strings.TrimSuffix(strings.Repeat("{},", numRecords), ",") + "]"
    in := strings.NewReader(value)

    // 预分配 slice 容量，以排除 slice 自身扩容对内存测量的影响
    out := make([]struct{}, 0, numRecords)

    for i := 0; i < 5; i++ {
        runtime.GC()
    }

    var statsBefore runtime.MemStats
    runtime.ReadMemStats(&statsBefore)

    log.Println("Starting to decode with json/v1...")
    decoder := json.NewDecoder(in)
    if err := decoder.Decode(&out); err != nil {
        log.Fatalf("v1 Decode failed: %v", err)
    }
    log.Println("Decode finished.")

    var statsAfter runtime.MemStats
    runtime.ReadMemStats(&statsAfter)

    allocBytes := statsAfter.TotalAlloc - statsBefore.TotalAlloc
    log.Printf("Total bytes allocated during Decode: %d bytes (%.2f MiB)", allocBytes, float64(allocBytes)/1024/1024)
}

分析：同样，你会看到数兆字节的内存分配。json.Decoder 在反序列化之前，会将整个 JSON 数组作为一个单独的值完整地读入其内部缓冲区。这个缓冲区的大小与输入数据的大小成正比。

运行该代码，我机器上的输出如下：

$go run unmarshal.go
2025/08/09 13:38:47 Starting to decode with json/v1...
2025/08/09 13:38:47 Decode finished.
2025/08/09 13:38:47 Total bytes allocated during Decode: 8394096 bytes (8.01 MiB)

从上面两个例子，我们看到：json/v1 的 Encoder 和 Decoder 提供的只是API 层面的流式抽象，其底层实现是全量缓冲的，导致内存复杂度和数据大小成线性关系 (O(N))。这就是“伪流”之痛。

json/v2 的革命：用正确的 API 实现真流式处理

现在，让我们见证 json/v2 的魔力。我们将使用 v2 推荐的流式 API，来完成与 v1 示例完全相同的任务，并进行内存对比。

场景一：v2 流式编码一个巨大的 JSON 数组

我们将模拟从数据源逐条获取数据，并使用 jsontext.Encoder 手动构建 JSON 数组流。

// jsonv2-streaming/v2/marshal.go
package main

import (
    "io"
    "log"
    "runtime"
    "encoding/json/v2"
    "encoding/json/jsontext"
)

func main() {
    const numRecords = 1_000_000
    out := io.Discard

    for i := 0; i < 5; i++ {
        runtime.GC()
    }

    var statsBefore runtime.MemStats
    runtime.ReadMemStats(&statsBefore)

    log.Println("Starting to encode with json/v2...")

    enc := jsontext.NewEncoder(out)

    // 手动写入数组开始标记
    if err := enc.WriteToken(jsontext.BeginArray); err != nil {
        log.Fatalf("Failed to write array start: %v", err)
    }

    // 逐个编码元素
    for i := 0; i < numRecords; i++ {
        // 内存中只需要一个空结构体，几乎不占空间
        record := struct{}{}
        if err := json.MarshalEncode(enc, record); err != nil {
            log.Fatalf("v2 MarshalEncode failed for record %d: %v", i, err)
        }
    }

    // 手动写入数组结束标记
    if err := enc.WriteToken(jsontext.EndArray); err != nil {
        log.Fatalf("Failed to write array end: %v", err)
    }
    log.Println("Encode finished.")

    var statsAfter runtime.MemStats
    runtime.ReadMemStats(&statsAfter)

    allocBytes := statsAfter.TotalAlloc - statsBefore.TotalAlloc
    log.Printf("Total bytes allocated during Encode: %d bytes (%.2f KiB)", allocBytes, float64(allocBytes)/1024)
}

分析：运行此程序，你会看到总分配字节数是一个非常小的数字，通常是几十千字节 (KiB)，主要用于 Encoder 内部的 I/O 缓冲。v2 将每个元素编码后立即写入，没有在内存中构建那个 2MB 的巨大字符串。

在我的机器上运行该示例，编码过程实际分配的内存仅有不到15KB：

$GOEXPERIMENT=jsonv2 go run marshal.go
2025/08/09 13:45:50 Starting to encode with json/v2...
2025/08/09 13:45:50 Encode finished.
2025/08/09 13:45:50 Total bytes allocated during Encode: 15328 bytes (14.97 KiB)

场景二：v2 流式解码一个巨大的 JSON 数组

我们将使用 jsontext.Decoder 和 jsonv2.UnmarshalDecode 的组合来逐个解码元素。

// jsonv2-streaming/v2/unmarshal.go
package main

import (
    "errors"
    "io"
    "log"
    "runtime"
    "strings"
    "encoding/json/v2"
    "encoding/json/jsontext"
)

func main() {
    const numRecords = 1_000_000
    value := "[" + strings.TrimSuffix(strings.Repeat("{},", numRecords), ",") + "]"
    in := strings.NewReader(value)
    _ = make([]struct{}, 0, numRecords) // out 变量在实际应用中会用到

    for i := 0; i < 5; i++ {
        runtime.GC()
    }

    var statsBefore runtime.MemStats
    runtime.ReadMemStats(&statsBefore)

    log.Println("Starting to decode with json/v2...")

    dec := jsontext.NewDecoder(in)

    // 手动读取数组开始标记 '['
    tok, err := dec.ReadToken()
    if err != nil || tok.Kind() != '[' {
        log.Fatalf("Expected array start, got %v, err: %v", tok, err)
    }

    // 循环解码数组中的每个元素
    for dec.PeekKind() != ']' {
        var record struct{}
        if err := json.UnmarshalDecode(dec, &record); err != nil {
            if errors.Is(err, io.EOF) {
                break
            }
            log.Fatalf("v2 UnmarshalDecode failed: %v", err)
        }
        // 在实际应用中，这里会处理 record，例如：
        // out = append(out, record)
    }
    log.Println("Decode finished.")

    var statsAfter runtime.MemStats
    runtime.ReadMemStats(&statsAfter)

    allocBytes := statsAfter.TotalAlloc - statsBefore.TotalAlloc
    log.Printf("Total bytes allocated during Decode: %d bytes (%.2f KiB)", allocBytes, float64(allocBytes)/1024)
}

分析：同样，你会看到总分配字节数非常小。UnmarshalDecode 在循环中每次只读取并解码一个 {} 对象，而 jsontext.Decoder 的内部缓冲区大小是固定的，不会因输入流的增大而膨胀。

下面是我机器上运行的结果，和v2编码一样，仅需要15KB左右的缓冲区：

$ GOEXPERIMENT=jsonv2 go run unmarshal.go
2025/08/09 13:55:29 Starting to decode with json/v2...
2025/08/09 13:55:29 Decode finished.
2025/08/09 13:55:29 Total bytes allocated during Decode: 15248 bytes (14.89 KiB)

内存占用对比总结

操作	json/v1 (伪流) 内存分配	json/v2 (真流) 内存分配	结论
Marshal	~8 MiB (与数据大小成正比)	~15 KiB (固定开销)	数量级差异
Unmarshal	~8 MiB (与数据大小成正比)	~15 KiB (固定开销)	数量级差异

这个直接的、数据驱动的对比，无可辩驳地证明了 json/v2 在流式处理方面的革命性突破。它将内存复杂度从 O(N) 降低到了 O(1)，为 Go 语言处理海量 JSON 数据铺平了道路。

正如提出issue #33714的开发者flimzy所说的那样：json/v2正是json流处理的答案！

小结

encoding/json/v2 的提案和实现，标志着 Go 在大规模数据处理能力上的一个巨大飞跃。通过将语法和语义分离，并提供底层的、真正的流式 API，v2 彻底解决了 v1 长期存在的内存瓶颈问题。

对于 Go 开发者而言，这意味着：

处理超大规模 JSON 不再是难题**：无论是生成还是解析 GB 级别的 JSON 文件或流，都将变得轻而易举，且内存占用可控。
更高的性能和效率：根据 v2 的基准测试，新的实现在解码（Unmarshal）方面比 v1 有 2.7 到 10.2 倍的性能提升。
更灵活的控制力：底层的 jsontext 包为需要进行精细化 JSON 操作的开发者提供了前所未有的能力。

虽然 Go 1.25 json/v2 会以 GOEXPERIMENT 形式落地，但它所展示的强大能力和优秀设计，已经预示了Go JSON 处理的新纪元。我们有充分的理由期待它在未来的 Go 版本中正式发布，成为所有 Go 开发者处理 JSON 数据的首选工具。

本文涉及的示例代码可以在这里下载。

你的Go技能，是否也卡在了“熟练”到“精通”的瓶颈期？

想写出更地道、更健壮的Go代码，却总在细节上踩坑？
渴望提升软件设计能力，驾驭复杂Go项目却缺乏章法？
想打造生产级的Go服务，却在工程化实践中屡屡受挫？

继《Go语言第一课》后，我的《Go语言进阶课》终于在极客时间与大家见面了！

我的全新极客时间专栏《Tony Bai·Go语言进阶课》就是为这样的你量身打造！30+讲硬核内容，带你夯实语法认知，提升设计思维，锻造工程实践能力，更有实战项目串讲。

目标只有一个：助你完成从“Go熟练工”到“Go专家”的蜕变！现在就加入，让你的Go技能再上一个新台阶！

商务合作方式：撰稿、出书、培训、在线课程、合伙创业、咨询、广告合作。如有需求，请扫描下方公众号二维码，与我私信联系。

Go 1.24用户报告：Datadog如何借助 Swiss Tables版map节省数百 GB 内存？

七月 22, 2025
0 条评论

本文永久链接 – https://tonybai.com/2025/07/22/go-swiss-table-map-user-report

大家好，我是Tony Bai。

Datadog 的故事始于一次对Go 1.24内存回归问题的追踪。在与 Go 社区协作修复了该问题后，他们在部署修复版本的过程中，观察到了一个意料之外的现象：在高流量环境中，内存使用不仅恢复了正常，甚至大幅下降。一个名为 shardRoutingCache 的巨型内存 map，其堆内存占用减少了约 500 MiB，考虑到 Go 的垃圾回收机制（GOGC=100），这相当于节省了近 1 GiB 的物理内存。

这一发现引出了两个核心问题：
1. Go 1.24 究竟做了什么，让 map 在某些场景下变得如此高效？
2. 为什么这种内存优化的效果并非在所有环境中都一致？

Go Map 的前世今生：从 Bucket 到 Group

要理解这一变革，我们必须回顾 Go map 的内部实现演进。

Go 1.23 及之前：基于 Bucket 的设计

在 Go 1.24 之前，Go 的 map 实现是基于传统的桶（Bucket）和链式地址法来解决哈希冲突的。

结构：map 由一个 Bucket 数组组成。每个 Bucket 内部有 8 个槽（slot），用于存放键值对。
插入与查找：当插入或查找一个键时，Go 会计算其哈希值以确定它属于哪个 Bucket。然后，它需要线性扫描该 Bucket 内的所有槽位来查找匹配的键。
溢出处理：当一个 Bucket 的 8 个槽都满了，后续哈希到此的键值对会被放入一个溢出桶（overflow bucket）中，并形成一个链表。这意味着，在最坏的情况下，一次查找可能需要遍历多个 Bucket。
扩容机制：当 map 的平均负载因子超过阈值（约 81.25%）时，会触发扩容。Go 会分配一个两倍大小的新 Bucket 数组，但并不会立即迁移所有数据。为了平摊延迟，数据迁移是增量进行的，在后续的写操作中，旧 Bucket 的数据会逐渐被搬迁到新 Bucket。这种设计虽然降低了单次操作的延迟，但其代价是在迁移期间，新旧两个 Bucket 数组会同时存在于内存中，导致瞬时内存翻倍。

Go 1.24 的革新：Swiss Table 与可扩展哈希

Go 1.24 引入了一套全新的、基于 Swiss Tables 和可扩展哈希（extendible hashing） 的 map 实现，彻底改变了游戏规则。

结构：数据被存储在组（Group）中，每个组同样包含 8 个槽。与 Bucket 不同的是，每个 Group 都有一个 8 字节的控制字（control word）。控制字的每个字节对应一个槽，其低 7 位存储了该槽位 key 哈希值的最后 7 位（h2），最高位则是一个标记，表示该槽是空闲（empty）、已删除（deleted）还是使用中（in use）。

高效查找：当查找一个键时，不再需要线性扫描所有键值对。Go 可以利用单指令多数据流（SIMD）指令，将目标键的 h2 值与控制字中的 8 个字节并行比较，一次性找出所有可能匹配的槽位。这极大地加速了查找过程。
开放寻址与无溢出桶：当一个 Group 满了，新的键值对会通过开放寻址（probing）的方式，被尝试放入下一个 Group。这种快速的探测机制彻底消除了对溢出桶的需求。
更高的负载因子与更高效的扩容：由于探测速度极快，Swiss Table 可以安全地维持更高的负载因子（87.5%），这意味着在存储相同数量的元素时，所需的总槽位数更少，从而节省了内存。更重要的是，对于非常大的 map，Go 1.24 采用了可扩展哈希，将一个大 map 视为一个由多个独立的、大小有上限（128个Group）的 Swiss Table 组成的目录。当某个子表需要分裂时，只会影响该子表本身，而不是像旧版 map 那样保留整个旧的 Bucket 数组，这使得扩容过程的内存效率大大提高。

Datadog 实战：量化 Swiss Table 带来的巨大收益

Datadog 团队通过详细的计算，量化了这次底层变更对他们核心业务数据 shardRoutingCache 的影响。

案例背景：一个巨大的内存缓存 shardRoutingCache

这个 map 在服务启动时从数据库加载，并且很少写入，其结构如下：

// The key represents each routing key derived from the data payload
shardRoutingCache map[string]Response 

type Response struct {
    ShardID      int32
    ShardType    ShardType // ShardType is an int
    RoutingKey   string
    LastModified *time.Time
}

在 64 位架构下，每个键值对（不含 string 内容和 time.Time 结构体）的基础大小为 56 字节。

高流量环境：350 万元素的 map

Go 1.23 下的内存估算：为了存储 350 万个元素，并考虑到增量扩容期间新旧 Bucket 数组共存的情况，Datadog 估算出 map 的桶结构本身大约需要 696 MiB 内存。
Go 1.24 下的内存估算：得益于更高的负载因子和更高效的扩容机制，存储同样多的元素，Swiss Table 只需要大约 500,000 个 Group，分布在约 3900 个独立的子表中。每个子表独立管理内存，避免了全局的内存加倍。

最终结果是，仅 map 结构本身的内存占用就从近 700 MiB 降至约 200 MiB 左右，实现了约 70% 的惊人降幅，这与他们在生产环境中观察到的 500 MiB 堆内存节省高度吻合。

低流量环境：55 万元素的 map

然而，在元素数量级较小的环境中（约 55 万），内存节省效果（约 28 MiB）远没有那么显著。这点节省甚至不足以抵消 Go 1.24 中 mallocgc 的内存回归带来的开销（约 200-300 MiB RSS 增加）。这完美地解释了为什么内存优化的效果并非普遍存在：Swiss Table 的优势在处理大规模 map 时才能被最大化地体现出来。

超越运行时：应用层优化的锦上添花

受到运行时优化的启发，Datadog 团队还审视了自己的数据结构 Response。他们发现：
1. RoutingKey 和 LastModified 字段在该 map 的特定用例中从未被填充。
2. ShardType 作为一个只有 3 个值的枚举，却使用了 8 字节的 int 类型。

通过创建一个仅包含所需字段的新结构 cachedResponse，并将 ShardType 从 int 改为 uint8，他们将每个 value 的大小从 40 字节（带填充）锐减至 8 字节（带填充）。这一应用层面的优化，为他们高流量环境中的每个 pod 额外节省了约 250 MiB 的 RSS。

总结与启示

Datadog 的这次深度调查为 Go 开发者社区带来了宝贵的经验：

Go 1.24 的 Swiss Tables 是一个巨大的胜利：对于重度使用大型 map 的应用，升级到 Go 1.24 能带来立竿见影的、显著的内存节省和性能提升。
升级需谨慎，观测是关键：每个 Go 版本都可能带来优化和回归。没有深入的运行时指标（如 RSS）和堆分析，像 mallocgc 回归和 Swiss Table 优化这样的 subtle 变化很容易被忽略或误判。
运行时与应用层优化相辅相成：底层的改进为上层应用打开了新的优化空间。审视自己的数据结构，消除浪费，使用恰当大小的类型，这些看似微小的改动在规模化部署下能产生巨大的影响。
社区协作的力量：从发现问题到与 Go 团队协作验证修复，这次经历再次证明了 Go 社区开放协作文化的强大。

总而言之，Go 1.24 中 map 的革新是一次教科书式的工程优化。它不仅提升了 Go 语言的核心竞争力，也通过 Datadog 的分享，为所有 Go 开发者上了一堂生动的、关于性能分析与优化的实践课。

资料链接：https://www.datadoghq.com/blog/engineering/go-swiss-tables/

你的Go技能，是否也卡在了“熟练”到“精通”的瓶颈期？