本文永久链接 – https://tonybai.com/2025/12/30/logging-sucks

大家好,我是Tony Bai。

“传统的日志记录(Logging)已经死了。不是说我们不再需要记录信息,而是那种‘写日记’式的记录方式,在微服务和高并发时代,已经彻底破产。”

曾几何时,我们写日志就像写日记:按时间顺序,一行行记录程序跑到了哪儿,发生了什么。但在现代分布式系统中,一个请求可能瞬间穿透几十个服务,留下成千上万行碎片化的文本。面对这种“信息洪流”,传统的 grep 和字符串搜索变得苍白无力。

正如 Boris Tane 在其深度好文《Logging sucks》中所言,我们正处于一个转折点,正在经历一场范式转移(Paradigm Shift):我们需要从记录零散的“调试日记”,转向构建高维度的“结构化事件”

img{512x368}

旧范式的崩溃——“调试日记”的局限

我们从入行就被教导的日志写法是这样的:

[INFO] User 123 clicked checkout
[DEBUG] Cart items validated
[WARN] Inventory check took 200ms
[ERROR] Payment gateway timeout

这种写法本质上是线性的、过程导向的。它假设程序的执行流是连续的,且上下文都在本地。

但在微服务架构中,这种假设不复存在。

  • 上下文丢失:当你看到 [ERROR] Payment failed 时,你不知道这个用户的会员等级是什么,也不知道上游的购物车服务是否传递了正确的优惠券代码。
  • 关联困难:为了追踪一个请求,你需要在海量的日志中,像考古学家一样,试图通过时间戳和零星的 ID 把碎片拼凑起来。
  • 基数(Cardinality)限制:传统日志系统为了索引性能,往往惧怕高基数数据(如无限增长的 User ID 或 Request ID),但这恰恰是调试中最需要的信息。

“调试日记”只是在记录代码的执行路径,而我们需要知道的,是业务发生的全部真相。

新范式的崛起——宽事件 (Wide Events)

为了解决这个问题,我们需要引入“宽事件”(也称为规范化日志行)的概念。

核心理念: 不要在这个请求的生命周期内打印 10 行日志,而是等到请求结束时,发射一个包含所有上下文的宽事件。

这就好比从“写日记”变成了“填表格”。无论请求经过了多少逻辑分支,最终我们得到的是一个结构化的事实记录:

{
  "timestamp": "2025-12-26T22:30:00Z",
  "event": "checkout_request_finished",
  "duration_ms": 450,
  "status": "error",
  // --- 关键:在一个事件中包含所有上下文 ---
  "user_context": {
    "id": "u_8848",
    "plan": "enterprise",
    "region": "ap-northeast"
  },
  "infra_context": {
    "service": "payment-srv",
    "host": "k8s-pod-x9s2",
    "db_latency": 120
  },
  "business_flags": {
    "new_checkout_flow": true,
    "promotion_applied": false
  },
  "error_details": {
    "code": "insufficient_funds",
    "upstream": "stripe"
  }
}

范式转移的本质:
* 从非结构化到结构化:不再是字符串的拼接,而是键值对的集合。
* 从低维度到高维度:一个事件可以包含几十甚至上百个字段(维度),这让你可以在任意维度上进行切片和聚合。

OpenTelemetry 只是管道,不是答案

很多人认为:“我用了 OpenTelemetry,我的问题就解决了。”

这是一个巨大的误区。OpenTelemetry (OTel) 提供了标准化的传输协议和 SDK,但它不能帮你决定记录什么

如果你只是用 OTel 自动插桩(Auto-instrumentation),你得到的只是一些通用的 HTTP 状态码和延时数据。这就像是用最先进的 5G 网络传输没有任何营养的垃圾短信。

真正的范式转移,要求开发者主动设计观测性。 你需要在代码中显式地捕获业务上下文(如 user_tier, cart_size, feature_flags),并将它们注入到当前的 Span 或 Event 中。

工具(OTel)是基础设施,思维(宽事件)才是灵魂。

从“搜索”进化为“分析”

当你完成了这次范式转移,你的调试方式将发生质的飞跃。

你不再是在搜索框里输入 Error 然后祈祷能找到线索。你现在可以像数据分析师一样提问:

“给我看过去一小时,所有企业版用户(Enterprise Plan)在使用了‘新结账流程’特性后,发生的支付失败,并按错误码分组。”

因为所有这些字段都在同一个宽事件中,数据库(如 ClickHouse, VictoriaMetrics 或其他现代观测平台)可以毫秒级地给出答案。

此外,配合尾部采样 (Tail Sampling) 策略——即只保留出错的、慢的或特定特征的完整请求链路,丢弃大量无用的成功请求——你可以在不增加存储成本的前提下,获得极高精度的调试能力。

小结:拥抱数据驱动的调试

“Logging 已死”并非危言耸听,它是对过时习惯的告别。

从“调试日记”到“结构化事件”的转变,标志着软件工程从经验主义的“猜”,走向了数据驱动的“看”。当我们不再被毫无意义的文本淹没,而是能够通过高维数据透视系统行为时,我们才真正拥有了掌控复杂系统的能力。

参考资料:https://loggingsucks.com


聊聊你的“查案”经历

在微服务的迷宫里,你是否也曾因为一条关键日志的缺失而通宵排查?或者,你所在的团队是否已经开始实践“结构化日志”或“宽事件”?

欢迎在评论区分享你的“血泪史”或“最佳实践”! 让我们一起推动可观测性的进化。

如果这篇文章为你打开了调试的新思路,别忘了点个【赞】和【在看】,并分享给你的架构师朋友!


还在为“复制粘贴喂AI”而烦恼?我的新专栏 AI原生开发工作流实战 将带你:

  • 告别低效,重塑开发范式
  • 驾驭AI Agent(Claude Code),实现工作流自动化
  • 从“AI使用者”进化为规范驱动开发的“工作流指挥家”

扫描下方二维码,开启你的AI原生开发之旅。


你的Go技能,是否也卡在了“熟练”到“精通”的瓶颈期?

  • 想写出更地道、更健壮的Go代码,却总在细节上踩坑?
  • 渴望提升软件设计能力,驾驭复杂Go项目却缺乏章法?
  • 想打造生产级的Go服务,却在工程化实践中屡屡受挫?

继《Go语言第一课》后,我的《Go语言进阶课》终于在极客时间与大家见面了!

我的全新极客时间专栏 《Tony Bai·Go语言进阶课》就是为这样的你量身打造!30+讲硬核内容,带你夯实语法认知,提升设计思维,锻造工程实践能力,更有实战项目串讲。

目标只有一个:助你完成从“Go熟练工”到“Go专家”的蜕变! 现在就加入,让你的Go技能再上一个新台阶!


商务合作方式:撰稿、出书、培训、在线课程、合伙创业、咨询、广告合作。如有需求,请扫描下方公众号二维码,与我私信联系。

© 2025, bigwhite. 版权所有.

Related posts:

  1. Prometheus 联合创始人的警告:在使用 OpenTelemetry 生成 Metrics 前请三思!
  2. Go 2025云原生与可观测年度报告:底层性能革新与生态固防
  3. 如果《疯狂动物城》是一个分布式系统,那它一定是用 Go 写的
  4. “6 个月,47 个微服务”:一场由“简历驱动”引发的架构灾难
  5. 持续性能分析正在成为继Metrics、Logs 和 Traces之后,可观测性的“第四大支柱”