分类 技术志 下的文章

Go json/v2实战:告别内存爆炸,掌握真流式Marshal和Unmarshal

本文永久链接 – https://tonybai.com/2025/08/09/true-streaming-support-in-jsonv2

大家好,我是Tony Bai。

Go 开发者长期以来面临一个痛点:标准库 encoding/json 在处理大型 JSON 数据时,即使使用 Encoder/Decoder,也因其内部的全量缓冲机制而导致巨大的内存开销。备受期待的 encoding/json/v2 提案(#71497)旨在从根本上解决这一问题。通过引入全新的底层包 encoding/json/jsontext,v2 实现了真正的流式处理能力。本文将通过具体的、可量化的基准测试,向你展示 v1 的内存陷阱,并演示如何使用 json/v2 高效地实现流式处理大规模 JSON 数据,彻底告别内存爆炸的烦恼。

json/v1 的“伪流”之痛:一个内存陷阱基准

为了直观地感受 json/v1 在处理大数据时的局限性,我们来建立一个基准测试。我们将分别进行编码(Marshal)和解码(Unmarshal)操作,并观察其内存使用情况。

关于内存评估:我们通过比较操作前后的 runtime.MemStats.TotalAlloc 来精确测量该操作自身导致的堆内存总分配量。一个真正的流式处理,其内存分配量应该是一个很小的常数(例如,I/O 缓冲区的大小),而与数据总量无关。

场景一:v1 编码一个巨大的 JSON 数组

我们创建一个包含 100 万个空结构体的 slice,然后使用 json.Encoder 将其写入 io.Discard。

// jsonv2-streaming/v1/marshal.go
package main

import (
    "encoding/json"
    "io"
    "log"
    "runtime"
)

func main() {
    const numRecords = 1_000_000
    in := make([]struct{}, numRecords)
    out := io.Discard

    // 多次 GC 以清理 sync.Pools,确保测量准确
    for i := 0; i < 5; i++ {
        runtime.GC()
    }

    var statsBefore runtime.MemStats
    runtime.ReadMemStats(&statsBefore)

    log.Println("Starting to encode with json/v1...")
    encoder := json.NewEncoder(out)
    if err := encoder.Encode(&in); err != nil {
        log.Fatalf("v1 Encode failed: %v", err)
    }
    log.Println("Encode finished.")

    var statsAfter runtime.MemStats
    runtime.ReadMemStats(&statsAfter)

    allocBytes := statsAfter.TotalAlloc - statsBefore.TotalAlloc
    log.Printf("Total bytes allocated during Encode: %d bytes (%.2f MiB)", allocBytes, float64(allocBytes)/1024/1024)
}

分析:当你运行此程序,会看到总分配字节数是一个巨大的数字,通常是几兆字节 (MiB)。这是因为 json.Encoder 必须先在内存中将整个 slice 序列化成一个完整的、约几MB({} 乘以 100 万)的 JSON 字符串,然后才开始写入。这个巨大的字符串就是内存分配的来源。

在我的Mac上,这个程序的输出如下:

$go run unmarshal.go
2025/08/09 13:38:47 Starting to decode with json/v1...
2025/08/09 13:38:47 Decode finished.
2025/08/09 13:38:47 Total bytes allocated during Decode: 8394096 bytes (8.01 MiB)

下面再来看看v1版本的json解码。

场景二:v1 解码一个巨大的 JSON 数组

现在,我们构造一个代表百万空对象的 JSON 字符串,并使用 json.Decoder 解码。

// jsonv2-streaming/v1/unmarshal.go
package main

import (
    "encoding/json"
    "log"
    "runtime"
    "strings"
)

func main() {
    const numRecords = 1_000_000
    // 构造一个巨大的 JSON 数组字符串,约 2MB
    value := "[" + strings.TrimSuffix(strings.Repeat("{},", numRecords), ",") + "]"
    in := strings.NewReader(value)

    // 预分配 slice 容量,以排除 slice 自身扩容对内存测量的影响
    out := make([]struct{}, 0, numRecords)

    for i := 0; i < 5; i++ {
        runtime.GC()
    }

    var statsBefore runtime.MemStats
    runtime.ReadMemStats(&statsBefore)

    log.Println("Starting to decode with json/v1...")
    decoder := json.NewDecoder(in)
    if err := decoder.Decode(&out); err != nil {
        log.Fatalf("v1 Decode failed: %v", err)
    }
    log.Println("Decode finished.")

    var statsAfter runtime.MemStats
    runtime.ReadMemStats(&statsAfter)

    allocBytes := statsAfter.TotalAlloc - statsBefore.TotalAlloc
    log.Printf("Total bytes allocated during Decode: %d bytes (%.2f MiB)", allocBytes, float64(allocBytes)/1024/1024)
}

分析:同样,你会看到数兆字节的内存分配。json.Decoder 在反序列化之前,会将整个 JSON 数组作为一个单独的值完整地读入其内部缓冲区。这个缓冲区的大小与输入数据的大小成正比。

运行该代码,我机器上的输出如下:

$go run unmarshal.go
2025/08/09 13:38:47 Starting to decode with json/v1...
2025/08/09 13:38:47 Decode finished.
2025/08/09 13:38:47 Total bytes allocated during Decode: 8394096 bytes (8.01 MiB)

从上面两个例子,我们看到:json/v1 的 Encoder 和 Decoder 提供的只是API 层面的流式抽象,其底层实现是全量缓冲的,导致内存复杂度和数据大小成线性关系 (O(N))。这就是“伪流”之痛。

json/v2 的革命:用正确的 API 实现真流式处理

现在,让我们见证 json/v2 的魔力。我们将使用 v2 推荐的流式 API,来完成与 v1 示例完全相同的任务,并进行内存对比。

场景一:v2 流式编码一个巨大的 JSON 数组

我们将模拟从数据源逐条获取数据,并使用 jsontext.Encoder 手动构建 JSON 数组流。

// jsonv2-streaming/v2/marshal.go
package main

import (
    "io"
    "log"
    "runtime"
    "encoding/json/v2"
    "encoding/json/jsontext"
)

func main() {
    const numRecords = 1_000_000
    out := io.Discard

    for i := 0; i < 5; i++ {
        runtime.GC()
    }

    var statsBefore runtime.MemStats
    runtime.ReadMemStats(&statsBefore)

    log.Println("Starting to encode with json/v2...")

    enc := jsontext.NewEncoder(out)

    // 手动写入数组开始标记
    if err := enc.WriteToken(jsontext.BeginArray); err != nil {
        log.Fatalf("Failed to write array start: %v", err)
    }

    // 逐个编码元素
    for i := 0; i < numRecords; i++ {
        // 内存中只需要一个空结构体,几乎不占空间
        record := struct{}{}
        if err := json.MarshalEncode(enc, record); err != nil {
            log.Fatalf("v2 MarshalEncode failed for record %d: %v", i, err)
        }
    }

    // 手动写入数组结束标记
    if err := enc.WriteToken(jsontext.EndArray); err != nil {
        log.Fatalf("Failed to write array end: %v", err)
    }
    log.Println("Encode finished.")

    var statsAfter runtime.MemStats
    runtime.ReadMemStats(&statsAfter)

    allocBytes := statsAfter.TotalAlloc - statsBefore.TotalAlloc
    log.Printf("Total bytes allocated during Encode: %d bytes (%.2f KiB)", allocBytes, float64(allocBytes)/1024)
}

分析:运行此程序,你会看到总分配字节数是一个非常小的数字,通常是几十千字节 (KiB),主要用于 Encoder 内部的 I/O 缓冲。v2 将每个元素编码后立即写入,没有在内存中构建那个 2MB 的巨大字符串。

在我的机器上运行该示例,编码过程实际分配的内存仅有不到15KB:

$GOEXPERIMENT=jsonv2 go run marshal.go
2025/08/09 13:45:50 Starting to encode with json/v2...
2025/08/09 13:45:50 Encode finished.
2025/08/09 13:45:50 Total bytes allocated during Encode: 15328 bytes (14.97 KiB)

场景二:v2 流式解码一个巨大的 JSON 数组

我们将使用 jsontext.Decoder 和 jsonv2.UnmarshalDecode 的组合来逐个解码元素。

// jsonv2-streaming/v2/unmarshal.go
package main

import (
    "errors"
    "io"
    "log"
    "runtime"
    "strings"
    "encoding/json/v2"
    "encoding/json/jsontext"
)

func main() {
    const numRecords = 1_000_000
    value := "[" + strings.TrimSuffix(strings.Repeat("{},", numRecords), ",") + "]"
    in := strings.NewReader(value)
    _ = make([]struct{}, 0, numRecords) // out 变量在实际应用中会用到

    for i := 0; i < 5; i++ {
        runtime.GC()
    }

    var statsBefore runtime.MemStats
    runtime.ReadMemStats(&statsBefore)

    log.Println("Starting to decode with json/v2...")

    dec := jsontext.NewDecoder(in)

    // 手动读取数组开始标记 '['
    tok, err := dec.ReadToken()
    if err != nil || tok.Kind() != '[' {
        log.Fatalf("Expected array start, got %v, err: %v", tok, err)
    }

    // 循环解码数组中的每个元素
    for dec.PeekKind() != ']' {
        var record struct{}
        if err := json.UnmarshalDecode(dec, &record); err != nil {
            if errors.Is(err, io.EOF) {
                break
            }
            log.Fatalf("v2 UnmarshalDecode failed: %v", err)
        }
        // 在实际应用中,这里会处理 record,例如:
        // out = append(out, record)
    }
    log.Println("Decode finished.")

    var statsAfter runtime.MemStats
    runtime.ReadMemStats(&statsAfter)

    allocBytes := statsAfter.TotalAlloc - statsBefore.TotalAlloc
    log.Printf("Total bytes allocated during Decode: %d bytes (%.2f KiB)", allocBytes, float64(allocBytes)/1024)
}

分析:同样,你会看到总分配字节数非常小。UnmarshalDecode 在循环中每次只读取并解码一个 {} 对象,而 jsontext.Decoder 的内部缓冲区大小是固定的,不会因输入流的增大而膨胀。

下面是我机器上运行的结果,和v2编码一样,仅需要15KB左右的缓冲区:

$ GOEXPERIMENT=jsonv2 go run unmarshal.go
2025/08/09 13:55:29 Starting to decode with json/v2...
2025/08/09 13:55:29 Decode finished.
2025/08/09 13:55:29 Total bytes allocated during Decode: 15248 bytes (14.89 KiB)

内存占用对比总结

操作 json/v1 (伪流) 内存分配 json/v2 (真流) 内存分配 结论
Marshal ~8 MiB (与数据大小成正比) ~15 KiB (固定开销) 数量级差异
Unmarshal ~8 MiB (与数据大小成正比) ~15 KiB (固定开销) 数量级差异

这个直接的、数据驱动的对比,无可辩驳地证明了 json/v2 在流式处理方面的革命性突破。它将内存复杂度从 O(N) 降低到了 O(1),为 Go 语言处理海量 JSON 数据铺平了道路。

正如提出issue #33714的开发者flimzy所说的那样:json/v2正是json流处理的答案!

小结

encoding/json/v2 的提案和实现,标志着 Go 在大规模数据处理能力上的一个巨大飞跃。通过将语法和语义分离,并提供底层的、真正的流式 API,v2 彻底解决了 v1 长期存在的内存瓶颈问题。

对于 Go 开发者而言,这意味着:

  • 处理超大规模 JSON 不再是难题**:无论是生成还是解析 GB 级别的 JSON 文件或流,都将变得轻而易举,且内存占用可控。
  • 更高的性能和效率:根据 v2 的基准测试,新的实现在解码(Unmarshal)方面比 v1 有 2.7 到 10.2 倍的性能提升。
  • 更灵活的控制力:底层的 jsontext 包为需要进行精细化 JSON 操作的开发者提供了前所未有的能力。

虽然 Go 1.25 json/v2 会以 GOEXPERIMENT 形式落地,但它所展示的强大能力和优秀设计,已经预示了Go JSON 处理的新纪元。我们有充分的理由期待它在未来的 Go 版本中正式发布,成为所有 Go 开发者处理 JSON 数据的首选工具。

本文涉及的示例代码可以在这里下载。


你的Go技能,是否也卡在了“熟练”到“精通”的瓶颈期?

  • 想写出更地道、更健壮的Go代码,却总在细节上踩坑?
  • 渴望提升软件设计能力,驾驭复杂Go项目却缺乏章法?
  • 想打造生产级的Go服务,却在工程化实践中屡屡受挫?

继《Go语言第一课》后,我的《Go语言进阶课》终于在极客时间与大家见面了!

我的全新极客时间专栏 《Tony Bai·Go语言进阶课》就是为这样的你量身打造!30+讲硬核内容,带你夯实语法认知,提升设计思维,锻造工程实践能力,更有实战项目串讲。

目标只有一个:助你完成从“Go熟练工”到“Go专家”的蜕变! 现在就加入,让你的Go技能再上一个新台阶!


商务合作方式:撰稿、出书、培训、在线课程、合伙创业、咨询、广告合作。如有需求,请扫描下方公众号二维码,与我私信联系。

想用Go复刻“Claude Code”?那你得先补上TUI这一课

本文永久链接 – https://tonybai.com/2025/08/08/go-tui-primer

大家好,我是Tony Bai。

最近,AI 圈最火的莫过于Anthropic推出的“Claude Code”– 一款基于终端的编码智能体工具:

当你在终端窗口里,看着 AI 实时地帮你生成、修改、编译、测试和运行一个 Web 应用,并且能立刻看到输出和反馈时,那种感觉只能用“震撼”来形容。

作为一名 Go 开发者,我当时脑子里冒出的第一个念头就是:

“如果我能用 Go,在自己的终端里,也实现一套这样的工作流,那该多酷?”

想象一下:你写一个 CLI 工具,它可以连接到任何一个大模型 API。你给它一个需求,比如“帮我写一个处理用户注册的 Go HTTP Handler”,然后:

  1. 你的终端左侧窗口,开始像打字机一样,流式输出 AI 生成的 Go 代码。
  2. 右侧窗口,实时显示出代码的编译状态、单元测试的进度条和结果。
  3. 当代码完成时,它自动运行起来,并告诉你:“服务已在 localhost:8080 启动,请测试。”

这个场景,就是我们开发者梦想中的“编码伙伴”,也是一个宏大但并非遥不可及的目标。

要实现这个目标,除了调用 AI 的 API,最关键、也是我们最容易忽视的一环是——如何构建这样一个复杂的、多窗口的、可实时交互的终端界面?

答案,就是 TUI (Terminal User Interface) 开发。

你的下一个 Go 程序,值得拥有一张“脸”

我们很多 Go 开发者,都把技能点加在了后端性能、并发模型上,这当然没错。但我们常常忽略了程序的“脸面”——它的交互体验。

传统的 CLI 工具,就像一个只会用专业术语说话的机器人,强大但冷漠。而一个现代的 TUI 应用,则像一个能与你沟通的智能助手。

它能在终端这个我们最熟悉、最高效的环境里,提供类似图形界面的直观体验:

  • 多窗口布局: 像 VS Code 一样,清晰地划分代码区、状态区、输出区。
  • 实时反馈: 进度条、加载动画、状态指示器,让一切尽在掌握。
  • 交互式组件: 可滚动的列表、可输入的文本框、可选择的菜单,告别死记硬背。

而 Go 语言,凭借其无与伦比的性能和静态编译能力,正是构建这类高性能 TUI 应用的最佳选择。

但这条路,自学起来并不容易

当你兴致勃勃地去 GitHub 搜索 Go TUI 库时,你可能会发现一些挑战:

  • 陡峭的思维转变: 最流行的库 bubbletea,用的是一种函数式的 Elm 架构。它的 Model-View-Update 模式,对于习惯了传统命令式编程的 Gopher 来说,像是在学习一门“外语”。
  • 知识点零散: 如何处理异步任务?如何设计可复用的组件?如何美化 UI?这些问题的答案散落在各种英文文档和 GitHub Issue 里,很难形成体系。
  • 缺乏实战引导: 看完基础教程,能写个计数器,但一到真实项目就无从下手,不知道如何将简单的 Demo 组合成一个复杂的应用。

为了帮你扫清这些障碍,让你能把精力聚焦在创造性的工作上,而不是在入门的坑里反复挣扎,我倾力打造了一门付费微专栏——《重塑终端:Go TUI 开发入门课》。

这门课,就是你通往“用 Go 复刻 Claude Code”梦想的第一块,也是最重要的一块基石。

在这门课里,你将得到什么?

本专栏专为有一定 Go 基础,但对 TUI 开发感到陌生或困惑的你而设计。无论你是想打造惊艳的开源工具,还是想给内部平台配一个更酷的客户端,你都能在这里找到清晰的路径。

通过 5 讲精心设计的内容,你将:

  • 第 1 讲 | 新利器: 我们将重新认识 TUI,理解它为何在 AI 时代成为 Go 开发者的“新利器”,并为你建立一套坚实的理论认知框架。
  • 第 2 讲 | 核心架构: 彻底解密 bubbletea 背后的 Elm 架构。我将用最直观的方式,带你掌握 Model-View-Update 这一核心思想,这是编写可维护 TUI 应用的基石。
  • 第 3 讲 | 交互之魂: 深入 bubbletea 的消息(Msg)与命令(Cmd)系统。你将学会如何处理键盘、鼠标等各种输入,以及如何优雅地执行网络请求等异步任务而不阻塞界面。
  • 第 4 讲 | 终端美学: 学习使用 Charm 生态中的 Lip Gloss 和 Bubbles 库。我将教你如何为你的 TUI 应用添加漂亮的色彩、布局和边框,并快速集成输入框、列表、进度条等现成组件。
  • 第 5 讲 | 实战串讲: 我们将所有知识融会贯通,从零开始,手把手带你构建一个功能完备的“终端版 GitHub Issue 查看器(如下图)”。这个项目将成为你的代码库,为你未来的 TUI 开发提供一个绝佳的脚手架。

完成这门课后,你将不仅仅是“会用”bubbletea,而是真正“理解”了现代 TUI 应用的构建哲学。你将有足够的能力和信心,去挑战那个“用 Go 复刻 Claude Code”的终极目标。

梦想再宏大,也要从第一行代码开始。而一个好的课程,能让你的第一行代码,走在最正确的路上。

今天,微专栏正式上线!扫描下方二维码,立即订阅。让我们一起,用 Go 重塑终端,开启属于你的 AI + TUI 开发之旅!


你的Go技能,是否也卡在了“熟练”到“精通”的瓶颈期?

  • 想写出更地道、更健壮的Go代码,却总在细节上踩坑?
  • 渴望提升软件设计能力,驾驭复杂Go项目却缺乏章法?
  • 想打造生产级的Go服务,却在工程化实践中屡屡受挫?

继《Go语言第一课》后,我的《Go语言进阶课》终于在极客时间与大家见面了!

我的全新极客时间专栏 《Tony Bai·Go语言进阶课》就是为这样的你量身打造!30+讲硬核内容,带你夯实语法认知,提升设计思维,锻造工程实践能力,更有实战项目串讲。

目标只有一个:助你完成从“Go熟练工”到“Go专家”的蜕变! 现在就加入,让你的Go技能再上一个新台阶!


商务合作方式:撰稿、出书、培训、在线课程、合伙创业、咨询、广告合作。如有需求,请扫描下方公众号二维码,与我私信联系。

如发现本站页面被黑,比如:挂载广告、挖矿等恶意代码,请朋友们及时联系我。十分感谢! Go语言第一课 Go语言进阶课 Go语言精进之路1 Go语言精进之路2 Go语言第一课 Go语言编程指南
商务合作请联系bigwhite.cn AT aliyun.com

欢迎使用邮件订阅我的博客

输入邮箱订阅本站,只要有新文章发布,就会第一时间发送邮件通知你哦!

这里是 Tony Bai的个人Blog,欢迎访问、订阅和留言! 订阅Feed请点击上面图片

如果您觉得这里的文章对您有帮助,请扫描上方二维码进行捐赠 ,加油后的Tony Bai将会为您呈现更多精彩的文章,谢谢!

如果您希望通过微信捐赠,请用微信客户端扫描下方赞赏码:

如果您希望通过比特币或以太币捐赠,可以扫描下方二维码:

比特币:

以太币:

如果您喜欢通过微信浏览本站内容,可以扫描下方二维码,订阅本站官方微信订阅号“iamtonybai”;点击二维码,可直达本人官方微博主页^_^:
本站Powered by Digital Ocean VPS。
选择Digital Ocean VPS主机,即可获得10美元现金充值,可 免费使用两个月哟! 著名主机提供商Linode 10$优惠码:linode10,在 这里注册即可免费获 得。阿里云推荐码: 1WFZ0V立享9折!


View Tony Bai's profile on LinkedIn
DigitalOcean Referral Badge

文章

评论

  • 正在加载...

分类

标签

归档



View My Stats