Google 揭秘生产环境调试心法:SRE 与 SWE 的四大思维差异与实战路径

本文永久链接 – https://tonybai.com/2025/mm/dd/debugging-Incidents-in-google 大家好,我是Tony Bai。 尽管 Google 的 SRE 手册为我们描绘了理想的运维蓝图,但在“炮火连天”的生产事故现场,工程师的真实反应往往是另一番景象。 最近,一篇发表于 ACM Queue 的研究深入剖析了 Google 工程师(包括 SRE 和 SWE)在处理复杂分布式系统生产问题时的真实行为模式。这项研究通过对大量事后复盘(postmortem)的分析和深度访谈,揭示了不同角色工程师在思维模型、工具选择上的显著差异,并总结出了一套普遍适用的“调试构建块”。对于每一位构建和维护大规模服务的工程师来说,这些来自一线的洞察无疑是一份宝贵的实战指南。 ...

August 10, 2025 · 8 min · Tony Bai

Prometheus 联合创始人的警告:在使用 OpenTelemetry 生成 Metrics 前请三思!

本文永久链接 – https://tonybai.com/2025/07/27/native-prometheus-instrumentation-over-opentelemetry 大家好,我是Tony Bai。 在云原生可观测性的世界里,OpenTelemetry (OTel) 正如日中天。它被誉为“可观测性的未来”,承诺用一个统一的标准,终结 Metrics、Traces、Logs 各自为战的混乱局面。无数的开发者和公司,都在热情地拥抱这个“一次插桩,到处发送”的美好愿景。 ...

July 27, 2025 · 5 min · Tony Bai

为什么 VictoriaMetrics 正在替换 Prometheus?一次大规模可观测性迁移实录

本文永久链接 – https://tonybai.com/2025/07/26/migrate-from-prometheus-to-victoriametrics 大家好,我是Tony Bai。 在云原生可观测性的领域,Prometheus 无疑是王者。凭借其简洁的模型、强大的 PromQL 和活跃的社区,Prometheus 几乎定义了现代监控的行业标准。许多顶尖技术公司,包括 PingCAP,都将其作为核心产品的监控与告警解决方案。 ...

July 26, 2025 · 6 min · Tony Bai