标签 Golang 下的文章

为什么 VictoriaMetrics 正在替换 Prometheus?一次大规模可观测性迁移实录

本文永久链接 – https://tonybai.com/2025/07/26/migrate-from-prometheus-to-victoriametrics

大家好,我是Tony Bai。

在云原生可观测性的领域,Prometheus 无疑是王者。凭借其简洁的模型、强大的 PromQL 和活跃的社区,Prometheus 几乎定义了现代监控的行业标准。许多顶尖技术公司,包括 PingCAP,都将其作为核心产品的监控与告警解决方案。

然而,Prometheus 的架构缺陷使其在大规模监控中显得力不从心。我们经常看到像 Pinterest 这样的大型企业面临的真实挑战。当一个 TiDB 集群规模达到 700+ 节点,每秒处理 700K+ QPS 时,曾经可靠的“王者”开始露出疲态。用于故障诊断的核心工具 TiDB Clinic 在回放和分析这些大规模集群的指标时,Prometheus 开始频繁崩溃。

这迫使整个行业直面一个残酷的现实:在极限规模下,Prometheus 不再是最佳选择。最近,PingCAP 官方发布的一篇博文 详细记录了他们如何应对这一挑战,并最终选择用 VictoriaMetrics 完成“换心手术”的全过程。

压垮 Prometheus 的“五宗罪”

为了支持 Pinterest 这样的大客户,pingcap工程团队为 Prometheus 分配了“怪兽级”的硬件资源:一台拥有 96 核心 CPU 和 768GB RAM 的 i4i.24xlarge 实例。许多人曾天真地以为,只要资源给够,一切问题都能解决。

但事实并非如此。在高基数、高吞吐量的指标冲击下,Prometheus 暴露出了几个致命的、与资源无关的瓶颈:

  • Out of Memory (OOM) 崩溃
    在执行大型、复杂的查询时,尤其是时间跨度较长时,Prometheus 的内存消耗会急剧飙升,最终被系统 OOM Killer 无情终结。

  • 漫长的恢复时间
    OOM 之后,Prometheus 需要通过重放 WAL (Write-Ahead Log) 来恢复数据。对于海量数据,这个过程动辄需要 40 分钟以上,有时甚至会因为各种原因彻底失败。

  • “死亡循环”
    最令人绝望的是,WAL 重放过程本身就是一个高资源消耗的操作,它很可能再次触发 OOM。文章中提到,工程团队遇到过 Prometheus 在崩溃和重启的“死亡循环”中挣扎,迟迟无法恢复服务的情况。

  • 查询性能瓶颈
    为了避免 OOM,工程师们不得不将排查问题的查询时间范围,严格限制在 15 分钟以内。一旦超过这个窗口,查询就会变得极慢或直接失败。这对于需要进行历史数据分析的故障根因定位,是致命的。

  • 高昂的 TCO (总拥有成本)
    为它配置了顶级的硬件,却换来了不稳定的服务和受限的查询能力。这笔投入的性价比,显然是极低的。

这一系列的“血泪教训”让我们明白,问题的根源不在于资源不足,而在于 Prometheus 的架构设计,在面对超大规模场景时,已经触及其能力的“天花板”。

救世主登场:VictoriaMetrics 的崛起

带着这些痛点,工程团队开始寻找替代方案。VictoriaMetrics (VM) 进入了他们的视野,它从设计之初就为大规模、长周期监控场景而生。

值得一提的是,在云原生监控领域,VictoriaMetrics 的崛起并非偶然。曾几何时,InfluxDB 也是 Prometheus 的一个强力竞争者。然而,自从 InfluxDB 决定用 Rust 重写其 3.0 版本核心后,其在 Go 社区和云原生生态中的声量和影响力似乎有所下降。与此同时,完全用 Go 编写、性能卓越且与 Prometheus 生态高度兼容的 VictoriaMetrics,则抓住了这个机会,迅速填补了市场空白,赢得了越来越多大规模用户的青睐。

经过一系列严谨的测试,PingCAP 的团队发现 VictoriaMetrics 在几个关键点上完美地解决了 Prometheus 的困境。

1. 资源利用率大幅优化
迁移到 VictoriaMetrics 后,奇迹发生了。在处理同样体量的指标时:
* CPU 使用率稳定在 50% 以下。
* 内存使用率保持在 35% 以下。
* OOM 崩溃彻底消失。

VM 用更少的资源,提供了更强的稳定性。

2. 查询能力质的飞跃
这才是最关键的提升。过去在 Prometheus 上 15 分钟就必定失败的复杂查询,现在在 VictoriaMetrics 上可以轻松地将时间范围扩展到数小时。这意味着工程师在排查问题时,终于可以从“戴着镣铐跳舞”变得游刃有余。

3. 数据为证:性能的碾压

口说无凭,PingCAP 团队在 Pinterest 的集群上进行了直接的性能对比测试,结果不言自明:

指标 时间范围 Prometheus 性能 VictoriaMetrics (Tuned) 性能
KV Request (简单查询) 15分钟 失败 成功 (1分钟内)
99% gRPC duration (复杂查询) 30分钟 失败 (26秒后) 成功 (7.4秒)
99% gRPC duration (复杂查询) 1小时 失败 (15秒后) 成功 (7.4秒)

表格清晰地显示,Prometheus 在处理稍长时间范围的查询时便迅速败下阵来,而 VictoriaMetrics 则表现得轻松自如,甚至在处理 1 小时的数据时,查询耗时也仅为个位数秒。

迁移实录:“零停机”三步走策略

当然,替换一个生产环境的核心监控系统,是一项高风险的“换心手术”。为了确保万无一失,PingCAP 的工程师们设计并执行了一套平滑、无感知的迁移策略:

Step 1: 并行部署,双轨并行

他们没有直接关闭 Prometheus,而是在旁边部署了一套 VictoriaMetrics,让它们同时从 TiDB 集群采集完全相同的数据。

Step 2: 对比验证,建立信任

在双轨运行阶段,工程师们持续对比两个系统的数据准确性、查询性能和资源消耗。这个阶段让他们用真实数据验证了 VM 的所有优势,并建立了切换的信心。

Step 3: 优雅切换,最终交割

在确认一切平稳后,他们将 Grafana 的数据源从 Prometheus 指向 VictoriaMetrics,然后从容地关闭了 Prometheus 服务。整个过程对用户和工程师完全透明,没有造成任何监控停机或数据丢失。

小结

这次从 Prometheus 到 VictoriaMetrics 的迁移,不是一次对 Prometheus 的否定。Prometheus 依然是一个极其优秀、定义了行业的伟大工具,对于 90% 的场景,它简单、可靠,是最佳选择。

但这个案例证明,技术选型没有永恒的“银弹”,只有在特定规模和场景下的“最合适的工具”。

当你的系统规模跨越了某个临界点,过去让你引以为傲的“简单”架构,就可能成为你继续前进的“诅咒”。勇于直面工具的边界,并基于翔实的数据和严谨的流程做出改变,这本身就是一种宝贵的工程能力。

更值得关注的是,就在近期,VictoriaMetrics 团队宣布将其另外两个关键的可观测性产品——VictoriaLogsVictoriaTrace——作为独立的开源项目发布。这意味着 VictoriaMetrics 不再仅仅满足于成为一个 Metrics 领域的强者,它的目标是构建一个覆盖 Metrics, Logs, Traces 的全方位、高性能可观测性平台。

对于 TiDB 和其他面临类似挑战的大规模系统而言,VictoriaMetrics 已经被证明是一个坚实的基础。而对于整个云原生社区,一个更强大、更全面的可观测性“新王”,或许正在悄然加冕。


你的Go技能,是否也卡在了“熟练”到“精通”的瓶颈期?

  • 想写出更地道、更健壮的Go代码,却总在细节上踩坑?
  • 渴望提升软件设计能力,驾驭复杂Go项目却缺乏章法?
  • 想打造生产级的Go服务,却在工程化实践中屡屡受挫?

继《Go语言第一课》后,我的《Go语言进阶课》终于在极客时间与大家见面了!

我的全新极客时间专栏 《Tony Bai·Go语言进阶课》就是为这样的你量身打造!30+讲硬核内容,带你夯实语法认知,提升设计思维,锻造工程实践能力,更有实战项目串讲。

目标只有一个:助你完成从“Go熟练工”到“Go专家”的蜕变! 现在就加入,让你的Go技能再上一个新台阶!

资料地址:https://www.pingcap.com/blog/tidb-observability-migrating-prometheus-victoriametrics/


商务合作方式:撰稿、出书、培训、在线课程、合伙创业、咨询、广告合作。如有需求,请扫描下方公众号二维码,与我私信联系。

Go vs. Rust vs. C++:从语言规范长度看三种不同的“复杂性”

本文永久链接 – https://tonybai.com/2025/07/25/go-vs-rust-vs-cpp-in-complexity)

大家好,我是Tony Bai。

最近,一张关于编程语言规范词数统计的图表,在技术圈广为流传。它以一种极其直观、甚至有些残酷的方式,将不同语言的复杂性摆在了我们面前。

在这张图上,我们看到了惊人的差异:

  • C++: 以超过 80 万词的规范长度,一骑绝尘,成为当之无愧的“巨无霸”。
  • C# 和 Java: 分别以约 40 万和 25 万词紧随其后,是功能丰富的“航空母舰”。
  • Go: 规范仅约 5 万词,与以简洁著称的 C (约 5.5 万词) 处于同一量级。

这张图不仅仅是一个有趣的谈资。语言规范的长度,是衡量一门语言复杂度的最客观指标之一。 它直接决定了这门语言的学习曲线、认知负荷,以及整个生态的风格。

今天,我们就以这张图为起点,深入探讨三门备受关注的系统级语言——Go、Rust 和 C++——它们各自代表的三种截然不同的“复杂性”,以及这些“复杂性”在 AI 时代意味着什么。

注:Go之所以被最初定位为系统级编程语言,是因为其设计之初便承载了构建高效、可靠系统级软件的愿景,旨在解决多核、网络化机器时代下大型代码库的开发痛点。 然而,其内置的垃圾回收机制和相对较大的运行时, 以及它在网络服务、云计算、微服务等应用层领域取得的显著成功和广泛应用, 逐渐改变了开发者对其的普遍认知,使得今天多数开发者不再将其归类为传统的、如C/C++般直接操作硬件的系统级编程语言。

“广度”的复杂性:C++ 的特性博物馆

C++ 的冗长规范,源于其“广度”上的复杂性。它像一个不断扩建的“特性博物馆”,收藏了自上世纪 80 年代以来的几乎所有编程范式。从 C with Classes,到面向对象,再到泛型元编程,再到现代的函数式风格,C++ 不断地累加新特性,却很少移除旧的。

这种复杂性的特点是:

  • 特性极其繁多: 多重继承、模板、操作符重载、右值引用… 你永远无法完全掌握它。
  • 选择极其自由: 对于同一个问题,你可能有十种不同的实现方式,每一种都有其微妙的优劣。

这导致的结果是,没有人能成为一个“纯粹的 C++ 开发者”,大家通常都只是某个 C++“安全子集”的专家。团队协作的巨大成本,就耗费在统一这个“子集”上。Google 著名的 C++ Style Guide,其本质就是一份“C++ 禁用特性列表”。

“深度”的复杂性:Rust 的陡峭山峰

再看 Rust。它的规范词数(约 10 万词)远比 C++ 短小,但几乎所有人都承认,Rust 的学习曲线极其陡峭。

这是因为它代表了另一种“深度”上的复杂性。Rust 的复杂性并非源于海量的特性,而是集中在少数几个强大、深刻且深度交织的核心概念上:

  • 所有权 (Ownership)
  • 生命周期 (Lifetimes)
  • 借用检查器 (Borrow Checker)

你不需要学习一百个小工具,但你必须彻底攀登这几座陡峭的山峰,才能真正驾驭这门语言。它的挑战不在于“知道什么”,而在于“深刻理解”。你需要在脑海中构建一个全新的心智模型,时刻与编译器进行一场关于内存安全的“博弈”。

“组合”的复杂性:Go 的乐高世界

最后,我们来看 Go。它的规范如此之短,是因为它从设计之初就选择了第三条路:将“复杂性”从语言本身,转移到开发者身上。

这里所说的Go的复杂性,是“组合”的复杂性。它为你提供的不是一套功能完备的“瑞士军刀”,而是一盒简单、正交、数量有限的“乐高积木”:

  • 简单的类型系统(没有类和继承)
  • 只有一个循环结构 (for)
  • 清晰的接口(隐式实现)
  • 强大的并发原语 (goroutine 和 channel)
  • … …

Go 语言本身是极其简单的,一个有经验的开发者可以在一周内掌握其全部语法。真正的挑战在于,你如何用这些有限的、简单的积木,去创造性地组合,以解决现实世界中的复杂问题。

Go 的设计哲学相信,通过组合这些简单的工具,你足以构建出任何复杂的系统。它把对创造力的要求还给了开发者,而不是将其隐藏在语言的“语法糖”和“黑魔法”之下。

AI 时代的新视角:哪种复杂性对 AI 更“友好”?

这场关于复杂性的讨论,在 AI 编程助手日益普及的今天,有了一层全新的意义。我们可以把语言规范的长度,看作是教一个 AI“学生”这门语言的“教科书厚度”。

  • 教 AI 写 C++: 就像给它一本大英百科全书。它能学会无数语法,但面对复杂的特性交互和未定义行为时,极易产生“幻觉”,生成看似正确但存在隐蔽 bug 的代码。审查这样的代码是一场噩梦。

  • 教 AI 写 Rust: 就像教它下围棋。它能学会规则,但很难掌握其深奥的战略(生命周期)。它生成的代码或许能通过编译,但可能是为了“讨好”编译器而写出的、极其扭曲和不符合人类直觉的代码。

  • 教 AI 写 Go: 就像给它一本清晰、简洁的“小红书”。规则少、边界清晰、没有“魔法”。AI 生成的代码不仅更可预测、更符合语言的最佳实践,最重要的是——它对人类审查者极其友好

在 AI 时代,我们开发者的工作重心正在从“写代码”,更多地转向“审查和指导 AI 写代码”。一门简单的、拥有短小精悍规范的语言,为我们和 AI 之间提供了一个共同的、易于理解的交流基础。

小结:简洁,一种面向未来的选择

回到最初的图表,它揭示了三种不同的设计哲学:

  • C++: “我给你一切,你自己想办法管好。”
  • Rust: “我会替你管好一切,但你必须先理解我的全部规则。”
  • Go: “我只给你几样最强大的工具,剩下的,我相信你的创造力。”

Go 的简洁,不是功能的匮乏,而是一种深思熟虑的、面向未来的战略选择。它不仅降低了人类开发者的认知负荷,更在不经意间,为即将到来的人机协作编程时代,铺平了道路。

因为当你的“同事”是一个 AI 时,一门简单、可预测、易于审查的语言,将是你最有价值的资产。


你的Go技能,是否也卡在了“熟练”到“精通”的瓶颈期?

  • 想写出更地道、更健壮的Go代码,却总在细节上踩坑?
  • 渴望提升软件设计能力,驾驭复杂Go项目却缺乏章法?
  • 想打造生产级的Go服务,却在工程化实践中屡屡受挫?

继《Go语言第一课》后,我的《Go语言进阶课》终于在极客时间与大家见面了!

我的全新极客时间专栏 《Tony Bai·Go语言进阶课》就是为这样的你量身打造!30+讲硬核内容,带你夯实语法认知,提升设计思维,锻造工程实践能力,更有实战项目串讲。

目标只有一个:助你完成从“Go熟练工”到“Go专家”的蜕变! 现在就加入,让你的Go技能再上一个新台阶!


商务合作方式:撰稿、出书、培训、在线课程、合伙创业、咨询、广告合作。如有需求,请扫描下方公众号二维码,与我私信联系。

如发现本站页面被黑,比如:挂载广告、挖矿等恶意代码,请朋友们及时联系我。十分感谢! Go语言第一课 Go语言进阶课 Go语言精进之路1 Go语言精进之路2 Go语言第一课 Go语言编程指南
商务合作请联系bigwhite.cn AT aliyun.com

欢迎使用邮件订阅我的博客

输入邮箱订阅本站,只要有新文章发布,就会第一时间发送邮件通知你哦!

这里是 Tony Bai的个人Blog,欢迎访问、订阅和留言! 订阅Feed请点击上面图片

如果您觉得这里的文章对您有帮助,请扫描上方二维码进行捐赠 ,加油后的Tony Bai将会为您呈现更多精彩的文章,谢谢!

如果您希望通过微信捐赠,请用微信客户端扫描下方赞赏码:

如果您希望通过比特币或以太币捐赠,可以扫描下方二维码:

比特币:

以太币:

如果您喜欢通过微信浏览本站内容,可以扫描下方二维码,订阅本站官方微信订阅号“iamtonybai”;点击二维码,可直达本人官方微博主页^_^:
本站Powered by Digital Ocean VPS。
选择Digital Ocean VPS主机,即可获得10美元现金充值,可 免费使用两个月哟! 著名主机提供商Linode 10$优惠码:linode10,在 这里注册即可免费获 得。阿里云推荐码: 1WFZ0V立享9折!


View Tony Bai's profile on LinkedIn
DigitalOcean Referral Badge

文章

评论

  • 正在加载...

分类

标签

归档



View My Stats