标签 goroutine 下的文章

凌晨3点的警报:一个导致 50000 多个 Goroutine 泄漏的 Bug 分析

本文永久链接 – https://tonybai.com/2026/01/22/a-bug-cause-50000-goroutine-leak

大家好,我是Tony Bai。

内存占用 47GB,响应时间飙升至 32秒,Goroutine 数量达到惊人的 50847 个。

这是一个周六凌晨 3 点,发生在核心 API 服务上的真实噩梦。运维正准备重启服务止损,但 Serge Skoredin 敏锐地意识到:这不是普通的内存泄漏,而是一场已经潜伏了 6 周、呈指数级增长的 Goroutine 泄漏

导致这场灾难的代码,曾通过了三位资深工程师的 Code Review,看起来“完美无缺”。今天,让我们跟随 Serge 的视角,层层剥开这个隐蔽 Bug 的伪装,学习如何避免同样的悲剧发生在你身上。

img{512x368}

看似“无辜”的代码

问题的核心出在一个 WebSocket 通知服务中。让我们看看这段“看起来很合理”的代码:

func (s *NotificationService) Subscribe(userID string, ws *websocket.Conn) {
    // 1. 创建带取消功能的 Context
    ctx, cancel := context.WithCancel(context.Background())

    sub := &subscription{
        userID: userID,
        ws:     ws,
        cancel: cancel, // 保存 cancel 函数以便后续调用
    }
    s.subscribers[userID] = sub

    // 2. 启动消息处理和心跳
    go s.pumpMessages(ctx, sub)
    go s.heartbeat(ctx, sub)
}

这看起来非常标准:使用了 context.WithCancel 来管理生命周期,将 cancel 存入结构体以便连接断开时调用。然而,魔鬼就藏在细节里。

泄漏的“三重奏”

经过排查,Serge 发现了导致泄漏的三个致命错误,它们环环相扣,最终酿成了大祸。

Bug #1:无人调用的 cancel

// 预期:连接断开时调用 s.Unsubscribe -> sub.cancel()
// 现实:WebSocket 断开连接时,根本没有人通知 Service 去执行清理逻辑!

当 WebSocket 连接意外断开(如用户直接关掉浏览器),如果没有显式地监听关闭事件并调用清理函数,s.subscribers 中不仅残留了无效的订阅对象,更重要的是,ctx 永远不会被取消。这意味着所有依赖该 ctx 的 Goroutine 将永生。

Bug #2:永不停歇的 Ticker

func (s *NotificationService) heartbeat(ctx context.Context, sub *subscription) {
    ticker := time.NewTicker(30 * time.Second)
    // 致命错误:缺少 defer ticker.Stop()

    for {
        select {
        case <-ctx.Done():
            return // Goroutine 退出了,但 Ticker 还在!
        case <-ticker.C:
            // ...
        }
    }
}

即便 ctx 被取消,Goroutine 退出了,但 time.NewTicker 创建的计时器是由 Go 运行时全局管理的。如果不显式调用 Stop(),Ticker 将永远存在,持续消耗内存和 CPU 资源。 50,000 个泄漏的 Ticker,足以让 Go 运行时崩溃。

Bug #3:阻塞的 Channel

type subscription struct {
    messages chan Message // 无缓冲 Channel(或者缓冲区满了)
    // ...
}

func (s *NotificationService) pumpMessages(...) {
    // ...
    case msg := <-sub.messages:
        sub.ws.WriteJSON(msg)
}

如果写入端还在不断尝试发送消息(因为不知道连接已断开),而读取端(pumpMessages)因为网络阻塞或已退出而不再读取,那么写入端的 Goroutine 就会被永久阻塞在 channel 发送操作上,形成另一种泄漏。

修复与预防:构建防漏体系

修复后的代码不仅加上了必要的清理逻辑,更引入了一套完整的防御体系。

修复:确保生命周期的闭环

  • 监听关闭事件:利用 ws.SetCloseHandler 确保在连接断开时主动调用 Unsubscribe。
  • 停止 Ticker:永远使用 defer ticker.Stop()。
  • 关闭 Channel:在清理时关闭 sub.messages,解除写入端的阻塞。

注:关闭 channel务必由写入者goroutine进行,如果写入者goroutine阻塞在channel写上,此时由其他goroutine close channel,会导致panic on send on closed channel的问题。

预防:Goleak 与监控

Serge 强烈推荐使用 Uber 开源的 goleak 库进行单元测试。

func TestNoGoroutineLeaks(t *testing.T) {
    defer goleak.VerifyNone(t) // 测试结束时检查是否有泄漏的 Goroutine

    // ... 运行测试逻辑 ...
}

此外,在生产环境中,必须监控 runtime.NumGoroutine()。设置合理的告警阈值(例如:当 Goroutine 数量超过正常峰值的 1.5 倍时告警),能在灾难发生前 6 周就发现端倪,而不是等到凌晨 3 点。

注:Go 1.26已经吸收了uber的goleak项目思想,并原生支持goroutine leak检测!此特性可在编译时通过设置GOEXPERIMENT=goroutineleakprofile开启。

小结:经验教训

这次事故给所有 Go 开发者敲响了警钟:

  1. Goroutine 必须有明确的退出策略:每当你写下 go func() 时,必须清楚地知道它将在何时、何种条件下退出。
  2. Context 是生命线:正确传播和取消 Context 是管理并发生命周期的核心。
  3. 资源必须显式释放:Ticker、Channel、Timer 等资源不会自动被垃圾回收,必须手动关闭。
  4. 测试是最后一道防线:不要只测试逻辑正确性,还要测试资源清理的正确性。

Goroutine 泄漏是“沉默的杀手”,它不报错、不崩溃,只是悄悄地吞噬你的系统。保持警惕,定期体检,别让它成为你凌晨 3 点的噩梦。

资料链接:https://skoredin.pro/blog/golang/goroutine-leak-debugging


你的“惊魂时刻”

50000 个 Goroutine 的泄漏听起来很吓人,但它可能就潜伏在我们看似正常的代码里。在你的开发生涯中,是否也遇到过类似的内存泄漏或资源耗尽的“惊魂时刻”?你最后是如何定位并解决的?

欢迎在评论区分享你的排查故事或避坑心得!让我们一起把 Bug 扼杀在摇篮里。

如果这篇文章让你对 Goroutine 的生命周期有了更深的敬畏,别忘了点个【赞】和【在看】,并转发给你的团队,今晚睡个好觉!


还在为“复制粘贴喂AI”而烦恼?我的新专栏 AI原生开发工作流实战 将带你:

  • 告别低效,重塑开发范式
  • 驾驭AI Agent(Claude Code),实现工作流自动化
  • 从“AI使用者”进化为规范驱动开发的“工作流指挥家”

扫描下方二维码,开启你的AI原生开发之旅。


你的Go技能,是否也卡在了“熟练”到“精通”的瓶颈期?

  • 想写出更地道、更健壮的Go代码,却总在细节上踩坑?
  • 渴望提升软件设计能力,驾驭复杂Go项目却缺乏章法?
  • 想打造生产级的Go服务,却在工程化实践中屡屡受挫?

继《Go语言第一课》后,我的《Go语言进阶课》终于在极客时间与大家见面了!

我的全新极客时间专栏 《Tony Bai·Go语言进阶课》就是为这样的你量身打造!30+讲硬核内容,带你夯实语法认知,提升设计思维,锻造工程实践能力,更有实战项目串讲。

目标只有一个:助你完成从“Go熟练工”到“Go专家”的蜕变! 现在就加入,让你的Go技能再上一个新台阶!


商务合作方式:撰稿、出书、培训、在线课程、合伙创业、咨询、广告合作。如有需求,请扫描下方公众号二维码,与我私信联系。

内存去哪儿了?一个让大多数 Gopher 都无法清晰回答的问题

本文永久链接 – https://tonybai.com/2026/01/15/where-did-the-memory-go-gopher-unanswered-question

大家好,我是Tony Bai。

“我的服务内存又在缓慢增长了,pprof 显示不出明显的泄漏点……内存到底去哪儿了?

这句午夜梦回的拷问,或许是许多 Go 开发者心中最深的恐惧。

这一切的根源,可能始于一个你自以为早已掌握的基础问题:“Go 的状态 (state) 存在哪里?” Go 开发者 Abhishek Singh之前断言:“我保证,一大半的 Go 开发者都无法清晰地回答这个问题。”

你的答案是什么?“在 goroutine 里”?“在栈上”?“由 Go runtime 管理”?

如果你的脑中闪过的是这些模糊的念头,那么你可能就找到了“内存失踪案”的“第一案发现场”。这个看似不起眼的认知模糊,正是导致无数生产环境中“内存缓慢泄露”、“goroutine 永不消亡”、“随机延迟飙升”等“灵异事件”的根源。

本文,将为你揭示这个问题的精确答案,并以此为起点,修复你关于 Go 内存管理的“心智模型”,让你从此能够清晰地回答:“内存,到底去哪儿了?”

揭晓答案与核心心智模型

首先,那个简单而重要的正确答案是:

Go 的状态,就是由 Go runtime 管理的内存,它要么在栈 (stack) 上,要么在堆 (heap) 上。

然而,知道这个答案只是第一步。真正关键的,是摒弃那个导致所有问题的错误直觉,转而建立如下正确的核心心智模型

Goroutine 不拥有内存,引用 (References) 才拥有。
一个 Goroutine 的退出,并不会释放内存。

当一个 goroutine 结束时,它仅仅是停止了执行。它所创建或引用的任何内存,只要仍然被其他东西持有着引用,就永远不会被垃圾回收器 (GC) 回收。

这些“其他东西”,就是你程序中的“内存锚点”,它们包括:

  • 一个全局变量
  • 一个 channel
  • 一个闭包
  • 一个 map
  • 一个被互斥锁保护的结构体
  • 一个未被取消的 context

这,就是几乎所有“Go 内存泄漏”的根本原因。 “内存去哪儿了?”——它被这些看不见的“锚点”,牢牢地拴在了堆上。

三大“内存锚点”——Goroutine 泄漏的元凶

Abhishek 将那些导致内存无法被回收的“引用持有者”,形象地称为“内存锚点”。其中,最常见、也最隐蔽的有三种。

“永生”的 Goroutine:被遗忘的循环

创建 goroutine 很廉价,但泄漏它们却极其昂贵。一个典型的“生命周期 Bug”:

// 经典错误:启动一个运行无限循环的 goroutine
go func() {
    for {
        work() // 假设 work() 会引用一些数据
    }
}()

这个 goroutine 永远不会退出。它会永久地持有 work() 函数所引用的任何数据,阻止 GC 回收它们。如果你在每个 HTTP 请求中都启动一个这样的“即发即忘”(fire-and-forget) 的 goroutine,你的服务内存将会线性增长,直至崩溃。

这不是内存泄漏,是你设计了一个“不朽的工作负载”。

Channel:不止传递数据,更持有引用

Channel 不仅仅是数据的搬运工,它们更是强力的引用持有者

ch := make(chan *BigStruct)
go func() {
    // 这个 goroutine 阻塞在这里,等待向 channel 发送数据
    ch <- &BigStruct{...}
}()

// 如果没有其他 goroutine 从 ch 中接收数据...

那么:

  • 那个 &BigStruct{…} 将永久地被 ch 持有。
  • 那个发送数据的 goroutine 将永久地阻塞。
  • GC 永远无法回收 BigStruct 和这个 goroutine 的栈。

这告诉我们:无缓冲或未被消费的 Channel,是缓慢的死亡。 它们会像“锚”一样,将数据和 goroutine 牢牢地钉在内存中。

context:被忽视的生命周期边界

context 包是 Go 中定义生命周期边界的“标准语言”。然而,一个常见的错误是,启动一个 goroutine 时,向其传递了一个永远不会被取消的 context。

错误模式

// 传递一个 background context,等于没有传递任何“停止信号”
go doWork(context.Background())

这个 doWork goroutine,一旦启动,就没有任何机制可以通知它停止。如果它内部是一个 for-select 循环,它就会永远运行下去。

正确的模式

// 从父 context 创建一个可取消的 context
ctx, cancel := context.WithCancel(parentCtx)
// 确保在函数退出时,无论如何都会调用 cancel
defer cancel() 

go doWork(ctx)

没有 cancel,就没有清理 (No cancel -> no cleanup)。context 不会“魔法般地”自己取消。

“不是 Bug,是生命周期”——如何诊断与思考

Abhishek 强调,我们习惯于称之为“泄漏”的许多问题,实际上并非 Go 语言的 Bug,而是我们自己设计的“生命周期 Bug”

诊断“三板斧”

  1. pprof (无可争议):这是你的第一、也是最重要的工具。通过 import _ “net/http/pprof” 引入它,并重点关注:

    • 堆内存增长 (heap profile)
    • 内存分配热点 (allocs profile)
    • goroutine 数量随时间的变化
  2. Goroutine Dumps: 通过 curl http://localhost:6060/debug/pprof/goroutine?debug=2 获取所有 goroutine 的详细堆栈信息。如果 goroutine 的数量只增不减,你就找到了泄漏的“犯罪现场”。

  3. 灵魂三问 (The Ownership Question):在审查任何一段持有状态的代码时,问自己三个问题:

    • 谁拥有这段内存?(Who owns this memory?)
    • 它应该在什么时候消亡?(When should it die?)
    • 是什么引用,让它得以存活?(What reference keeps it alive?)

那些我们不愿承认的“泄漏”

  • 即发即忘的 goroutine
  • 没有消费者的 channel
  • 永不取消的 context
  • 用作缓存却没有淘汰策略的 map
  • 捕获了巨大对象的闭包
  • 为每个请求启动的、永不退出的后台 worker

真正的教训 —— Go 奖励那些思考“责任”的工程师

Go 并没有隐藏内存,它暴露了责任。
GC 无法修复糟糕的所有权设计。

这是本篇最核心、也最深刻的结论。Go 的垃圾回收器,为你解决了“何时 free”的机械问题,但它将一个更高级、也更重要的责任,交还给了你——设计清晰的“所有权”和“生命周期”

Goroutine 不会自动清理自己,Channel 不会自动排空自己,Context 不会自动取消自己。这些都不是语言的缺陷,而是其设计哲学的体现。

Go 奖励那些能够思考以下问题的工程师:

  • 生命周期 (Lifetimes):这个 goroutine 应该在什么时候开始,什么时候结束?
  • 所有权 (Ownership):这份数据由谁创建,由谁负责,最终应该由谁来释放对其的最后一个引用?
  • 反压 (Backpressure):当消费者处理不过来时,生产者是否应该被阻塞?我的 channel 是否应该有界?

你不需要成为一名 Go 运行时专家,你只需要开始用“生命周期”的视角,去设计你的并发程序,并偶尔用 pprof 来验证你的设计。

这,就是修复 Go 内存问题“心智模型”的终极之道。

资料链接:https://x.com/0xlelouch_/status/2000485400884785320


你的“捉鬼”经历

内存泄漏就像幽灵,看不见摸不着却真实存在。在你的 Go 开发生涯中,是否也曾遇到过让你抓狂的内存泄漏或 Goroutine 暴涨?最终你是如何定位并解决的?

欢迎在评论区分享你的“捉鬼”故事和独门排查技巧! 让我们一起守护服务的稳定性。

如果这篇文章帮你修复了关于内存的心智模型,别忘了点个【赞】和【在看】,并转发给你的团队,让大家一起避坑!


还在为“复制粘贴喂AI”而烦恼?我的新专栏 AI原生开发工作流实战 将带你:

  • 告别低效,重塑开发范式
  • 驾驭AI Agent(Claude Code),实现工作流自动化
  • 从“AI使用者”进化为规范驱动开发的“工作流指挥家”

扫描下方二维码,开启你的AI原生开发之旅。


你的Go技能,是否也卡在了“熟练”到“精通”的瓶颈期?

  • 想写出更地道、更健壮的Go代码,却总在细节上踩坑?
  • 渴望提升软件设计能力,驾驭复杂Go项目却缺乏章法?
  • 想打造生产级的Go服务,却在工程化实践中屡屡受挫?

继《Go语言第一课》后,我的《Go语言进阶课》终于在极客时间与大家见面了!

我的全新极客时间专栏 《Tony Bai·Go语言进阶课》就是为这样的你量身打造!30+讲硬核内容,带你夯实语法认知,提升设计思维,锻造工程实践能力,更有实战项目串讲。

目标只有一个:助你完成从“Go熟练工”到“Go专家”的蜕变! 现在就加入,让你的Go技能再上一个新台阶!


商务合作方式:撰稿、出书、培训、在线课程、合伙创业、咨询、广告合作。如有需求,请扫描下方公众号二维码,与我私信联系。

如发现本站页面被黑,比如:挂载广告、挖矿等恶意代码,请朋友们及时联系我。十分感谢! Go语言第一课 Go语言进阶课 AI原生开发工作流实战 Go语言精进之路1 Go语言精进之路2 Go语言第一课 Go语言编程指南
商务合作请联系bigwhite.cn AT aliyun.com
这里是 Tony Bai的个人Blog,欢迎访问、订阅和留言! 订阅Feed请点击上面图片

如果您觉得这里的文章对您有帮助,请扫描上方二维码进行捐赠 ,加油后的Tony Bai将会为您呈现更多精彩的文章,谢谢!

如果您希望通过微信捐赠,请用微信客户端扫描下方赞赏码:

如果您希望通过比特币或以太币捐赠,可以扫描下方二维码:

比特币:

以太币:

如果您喜欢通过微信浏览本站内容,可以扫描下方二维码,订阅本站官方微信订阅号“iamtonybai”;点击二维码,可直达本人官方微博主页^_^:
本站Powered by Digital Ocean VPS。
选择Digital Ocean VPS主机,即可获得10美元现金充值,可 免费使用两个月哟! 著名主机提供商Linode 10$优惠码:linode10,在 这里注册即可免费获 得。阿里云推荐码: 1WFZ0V立享9折!


View Tony Bai's profile on LinkedIn
DigitalOcean Referral Badge

文章

评论

  • 正在加载...

分类

标签

归档



View My Stats