降低 74% 的 P99 尾延迟:揭秘 Go HTTP 客户端的“请求对冲”魔法

本文永久链接 – https://tonybai.com/2026/03/30/reduced-p99-latency-by-request-hedging-in-go 大家好,我是Tony Bai。 在微服务和分布式系统的世界里,我们常常会遇到一个令人头疼的现象:服务在大部分时间(如 P50 或 P90 指标)表现得非常丝滑,但总有那么一小撮请求(P99 甚至 P99.9 指标)慢得令人发指。 ...

March 30, 2026 · 10 min · Tony Bai

一行 Go 代码瘫痪 6 小时!复盘 Cloudflare BGP 路由撤回灾难

本文永久链接 – https://tonybai.com/2026/02/23/cloudflare-bgp-withdrawal-outage-go-post-mortem 大家好,我是Tony Bai。 2026 年 2 月 20 日,全球互联网基础设施巨头 Cloudflare 经历了一次持续超 6 小时的严重服务中断。令人震惊的是,这次事故并非源于复杂的黑客攻击或硬件故障,而是源于一段用 Go 语言编写的、旨在实现自动化清理的后台脚本中,一个微小但致命的逻辑漏洞。 ...

February 23, 2026 · 7 min · Tony Bai

通过实例理解API网关的主要功能特性

本文永久链接 – https://tonybai.com/2023/12/03/understand-api-gateway-main-functional-features-by-example 在当今的技术领域中,“下云”的概念正逐渐抬头,像David Heinemeier Hansson(37signals公司的联合创始人, Ruby on Rails的Creator)就直接将公司所有的业务都从公有云搬迁到了自建的数据中心中。虽说大多数企业不会这么“极端”,但随着企业对云原生架构采用的广泛与深入,不可避免地面临着对云服务的依赖。云服务在过去的几年中被广泛应用于构建灵活、可扩展的应用程序和基础设施,为企业提供了许多便利和创新机会。然而,随着业务规模的增长和数据量的增加,云服务的成本也随之上升。企业开始意识到,对云服务的依赖已经成为一个值得重新评估的议题。云服务的开销可能占据了企业可用的预算的相当大部分。为了保持竞争力并更好地控制成本,企业需要寻找方法来减少对云服务的依赖,寻找更经济的解决方案,同时确保仍能获得所需的性能、安全性和可扩展性。 ...

December 3, 2023 · 26 min · Tony Bai

TB一周萃选[第9期]

本文是首发于个人微信公众号的文章**“TB一周萃选[第9期]”**的归档。 亲情犹如一江剪不断的春水,流动的是游子心中永远的思念;亲情犹如一丘数不尽的细沙,沉淀的是长年堆积的牵挂;亲情犹如夜空中那颗北斗,指引的是那迷路的羔羊回家的方向。忙碌了一年,该回家了,给心放个假,带上媳妇带上你的娃,回家看看那年迈的爸妈,出发! — 改编自网络 ...

February 11, 2018 · 9 min · Tony Bai