Tony Bai - 一个程序员的心路历程

本文永久链接 – https://tonybai.com/2025/07/27/native-prometheus-instrumentation-over-opentelemetry

大家好，我是Tony Bai。

在云原生可观测性的世界里，OpenTelemetry (OTel) 正如日中天。它被誉为“可观测性的未来”，承诺用一个统一的标准，终结 Metrics、Traces、Logs 各自为战的混乱局面。无数的开发者和公司，都在热情地拥抱这个“一次插桩，到处发送”的美好愿景。

但就在这股几乎不可阻挡的浪潮中，一个权威的声音却发出了一个略显刺耳的警告。

这个人，就是 Prometheus 的联合创始人，Julius Volz。

在他最新的博文中，Julius 毫不客气地指出：如果你正在使用 Prometheus 作为你的核心监控系统，并且你真正关心监控的质量和体验，那么，在使用 OpenTelemetry SDK 生成 Metrics 前，请务必三思！

他认为，拥抱 OTel 这个“通用标准”的代价，可能是丢掉 Prometheus 作为一个完整监控系统的“灵魂”，并背上丑陋、低效和复杂的“技术债”。

你正在丢掉 Prometheus 的灵魂

Julius 首先尖锐地指出了一个哲学问题：Prometheus 不仅仅是一个“指标数据库”，它是一个端到端的、有自己思想的监控系统。而 OTel 的“后端无关”设计，恰恰破坏了这种端到端的自洽性。当你选择用 OTel 向 Prometheus 推送数据时，你正在放弃这些至关重要的原生特性：

失去灵魂：Target 健康监控 (up 指标)

Prometheus 最核心的设计之一就是 Pull 模型 + 服务发现。这意味着 Prometheus 主动拉取指标，它清楚地知道“哪些目标应该存在”以及“它们现在是否健康”。如果一个目标拉取失败，Prometheus 会自动生成一个 up{job=”demo”} = 0 的指标。你可以用一条简单的 PromQL 告警规则 up == 0 来发现任何失联的服务。

然而，当你使用 OTel 的 Push 模型时，Prometheus 变成了一个被动的“无情的数据接收器”。它无法再区分一个服务是“正常下线”还是“已经崩溃但没来得及上报”。你可能拥有数百个已经死掉的服务进程，却在监控图表上一无所知。

失去优雅：丑陋的 PromQL 查询

为了兼容 PromQL，OTel 的指标在进入 Prometheus 时，往往需要经过“魔改”。
* 命名冲突： OTel 允许在指标名中使用“.”，而 Prometheus 的传统是不允许的。所以，一个 OTel 指标 k8s.pod.cpu.time 在进入 Prometheus 后，会被翻译成 k8s_pod_cpu_time_seconds_total。这种不一致性会给开发者带来困惑。
* 繁琐的查询语法： 为了支持 OTel 更宽泛的字符集，如果你想查询原始的 OTel 指标名，你的 PromQL 查询会从优雅的 my_metric{…} 变成丑陋的 {“my.metric”, …}。

失去便利：复杂的标签 Join

Prometheus 的 target labels（如 instance, job）会被自动附加到从该目标拉取的所有指标上。而 OTel 的 resource attributes（包含更多非关键元数据）则不会。为了避免高基数问题，大部分 OTel 的资源属性被打包进了一个单独的 target_info 指标里。

这意味着，如果你想在查询时使用这些属性，你必须写出类似下面这样繁琐的 group_left join 查询：

// 想加一个 k8s_cluster_name 标签，查询变得如此复杂
rate(http_server_request_duration_seconds_count[5m])
* on(job, instance) group_left(k8s_cluster_name)
target_info

这些问题，都在不断地增加你的认知负荷和工作复杂度。

性能鸿沟：Go SDK 的“血案”现场

如果说失去优雅和可靠性还不足以让你警醒，那么接下来的硬核性能数据，可能会让你大吃一惊。Julius 特别对比了 Prometheus Go SDK 和 OpenTelemetry Go SDK 在执行最常见操作——计数器递增——时的性能。

结论是毁灭性的。

Julius 的基准测试显示，在不同的并行度和标签缓存条件下：
* 在最坏情况下，Prometheus Go SDK 比 OTel Go SDK 快 26 倍。
* 在有标签缓存的最佳情况下，Prometheus Go SDK 甚至可以比 OTel Go SDK 快 53 倍！
* 更致命的是，Prometheus Go SDK 在所有情况下都实现了零新内存分配，而 OTel SDK 在设置标签时则会持续产生内存分配。

为什么会有如此惊人的差距？
* 复杂性 vs. 专注性： OTel SDK 是一个试图统一三驾马车（Metrics, Traces, Logs）的庞大系统，内部抽象层次多，路径长。而 Prometheus SDK 的目标极其单一和专注：用最高效的方式生成 Prometheus 指标。
* 主观代码体验： Julius 更是用一个生动的例子佐证了这一点——他想在两个 SDK 中找到核心的 Inc() 函数实现。在 Prometheus Go SDK 中，他花了 5 秒；而在 OTel Go SDK 中，他在复杂的抽象和间接调用中迷失了 15 分钟后，最终放弃了。

对于性能至关重要的 Go 后端服务来说，选择 OTel SDK 进行指标插桩，无异于在你的性能快车道上，悄悄地铺上了一层厚厚的沥青。

结论：在“通用标准”与“原生体验”之间做出选择

Julius 的文章并非是否定 OpenTelemetry 的价值。OTel 作为一个中立的、后端无关的“可观测性瑞士”，在构建异构系统、避免厂商锁定的场景中，依然具有不可替代的战略意义。

但他的警告是在提醒我们一个深刻的权衡：
* OpenTelemetry 的世界观： 追求最大的通用性和互操作性。它是一个数据生成和传输的标准，它不关心数据最终如何被使用。
* Prometheus 的世界观： 追求一个深度整合、端到端优化的系统体验。它的每一个设计——从 Pull 模型到 PromQL 语法——都在为最终用户能以最优雅、最高效的方式进行监控和告警服务。

如果你已经选择 Prometheus 作为你的核心监控“城邦”，那么使用它原生的客户端库，并非是选择“封闭”，而是选择一个经过千锤百炼的、高度自洽的、性能卓越的解决方案。

所以，在你为下一个 Go 项目 go get OTel SDK 之前，请先问自己一个问题：我是在追求一个“放之四海而皆准”的通用标准，还是在追求一个能将我的核心工具发挥到极致的原生体验？

答案，可能决定了你未来无数个夜晚的睡眠质量。

资料链接：https://promlabs.com/blog/2025/07/17/why-i-recommend-native-prometheus-instrumentation-over-opentelemetry/

你的Go技能，是否也卡在了“熟练”到“精通”的瓶颈期？

想写出更地道、更健壮的Go代码，却总在细节上踩坑？
渴望提升软件设计能力，驾驭复杂Go项目却缺乏章法？
想打造生产级的Go服务，却在工程化实践中屡屡受挫？

继《Go语言第一课》后，我的《Go语言进阶课》终于在极客时间与大家见面了！

我的全新极客时间专栏《Tony Bai·Go语言进阶课》就是为这样的你量身打造！30+讲硬核内容，带你夯实语法认知，提升设计思维，锻造工程实践能力，更有实战项目串讲。

目标只有一个：助你完成从“Go熟练工”到“Go专家”的蜕变！现在就加入，让你的Go技能再上一个新台阶！

商务合作方式：撰稿、出书、培训、在线课程、合伙创业、咨询、广告合作。如有需求，请扫描下方公众号二维码，与我私信联系。

本文永久链接 – https://tonybai.com/2025/07/26/migrate-from-prometheus-to-victoriametrics

大家好，我是Tony Bai。

在云原生可观测性的领域，Prometheus 无疑是王者。凭借其简洁的模型、强大的 PromQL 和活跃的社区，Prometheus 几乎定义了现代监控的行业标准。许多顶尖技术公司，包括 PingCAP，都将其作为核心产品的监控与告警解决方案。

然而，Prometheus 的架构缺陷使其在大规模监控中显得力不从心。我们经常看到像 Pinterest 这样的大型企业面临的真实挑战。当一个 TiDB 集群规模达到 700+ 节点，每秒处理 700K+ QPS 时，曾经可靠的“王者”开始露出疲态。用于故障诊断的核心工具 TiDB Clinic 在回放和分析这些大规模集群的指标时，Prometheus 开始频繁崩溃。

这迫使整个行业直面一个残酷的现实：在极限规模下，Prometheus 不再是最佳选择。最近，PingCAP 官方发布的一篇博文详细记录了他们如何应对这一挑战，并最终选择用 VictoriaMetrics 完成“换心手术”的全过程。

压垮 Prometheus 的“五宗罪”

为了支持 Pinterest 这样的大客户，pingcap工程团队为 Prometheus 分配了“怪兽级”的硬件资源：一台拥有 96 核心 CPU 和 768GB RAM 的 i4i.24xlarge 实例。许多人曾天真地以为，只要资源给够，一切问题都能解决。

但事实并非如此。在高基数、高吞吐量的指标冲击下，Prometheus 暴露出了几个致命的、与资源无关的瓶颈：

Out of Memory (OOM) 崩溃
在执行大型、复杂的查询时，尤其是时间跨度较长时，Prometheus 的内存消耗会急剧飙升，最终被系统 OOM Killer 无情终结。
漫长的恢复时间
OOM 之后，Prometheus 需要通过重放 WAL (Write-Ahead Log) 来恢复数据。对于海量数据，这个过程动辄需要 40 分钟以上，有时甚至会因为各种原因彻底失败。
“死亡循环”
最令人绝望的是，WAL 重放过程本身就是一个高资源消耗的操作，它很可能再次触发 OOM。文章中提到，工程团队遇到过 Prometheus 在崩溃和重启的“死亡循环”中挣扎，迟迟无法恢复服务的情况。
查询性能瓶颈
为了避免 OOM，工程师们不得不将排查问题的查询时间范围，严格限制在 15 分钟以内。一旦超过这个窗口，查询就会变得极慢或直接失败。这对于需要进行历史数据分析的故障根因定位，是致命的。
高昂的 TCO (总拥有成本)
为它配置了顶级的硬件，却换来了不稳定的服务和受限的查询能力。这笔投入的性价比，显然是极低的。

这一系列的“血泪教训”让我们明白，问题的根源不在于资源不足，而在于 Prometheus 的架构设计，在面对超大规模场景时，已经触及其能力的“天花板”。

救世主登场：VictoriaMetrics 的崛起

带着这些痛点，工程团队开始寻找替代方案。VictoriaMetrics (VM) 进入了他们的视野，它从设计之初就为大规模、长周期监控场景而生。

值得一提的是，在云原生监控领域，VictoriaMetrics 的崛起并非偶然。曾几何时，InfluxDB 也是 Prometheus 的一个强力竞争者。然而，自从 InfluxDB 决定用 Rust 重写其 3.0 版本核心后，其在 Go 社区和云原生生态中的声量和影响力似乎有所下降。与此同时，完全用 Go 编写、性能卓越且与 Prometheus 生态高度兼容的 VictoriaMetrics，则抓住了这个机会，迅速填补了市场空白，赢得了越来越多大规模用户的青睐。

经过一系列严谨的测试，PingCAP 的团队发现 VictoriaMetrics 在几个关键点上完美地解决了 Prometheus 的困境。

1. 资源利用率大幅优化
迁移到 VictoriaMetrics 后，奇迹发生了。在处理同样体量的指标时：
* CPU 使用率稳定在 50% 以下。
* 内存使用率保持在 35% 以下。
* OOM 崩溃彻底消失。

VM 用更少的资源，提供了更强的稳定性。

2. 查询能力质的飞跃
这才是最关键的提升。过去在 Prometheus 上 15 分钟就必定失败的复杂查询，现在在 VictoriaMetrics 上可以轻松地将时间范围扩展到数小时。这意味着工程师在排查问题时，终于可以从“戴着镣铐跳舞”变得游刃有余。

3. 数据为证：性能的碾压

口说无凭，PingCAP 团队在 Pinterest 的集群上进行了直接的性能对比测试，结果不言自明：

指标	时间范围	Prometheus 性能	VictoriaMetrics (Tuned) 性能
KV Request (简单查询)	15分钟	失败	成功 (1分钟内)
99% gRPC duration (复杂查询)	30分钟	失败 (26秒后)	成功 (7.4秒)
99% gRPC duration (复杂查询)	1小时	失败 (15秒后)	成功 (7.4秒)

表格清晰地显示，Prometheus 在处理稍长时间范围的查询时便迅速败下阵来，而 VictoriaMetrics 则表现得轻松自如，甚至在处理 1 小时的数据时，查询耗时也仅为个位数秒。

迁移实录：“零停机”三步走策略

当然，替换一个生产环境的核心监控系统，是一项高风险的“换心手术”。为了确保万无一失，PingCAP 的工程师们设计并执行了一套平滑、无感知的迁移策略：

Step 1: 并行部署，双轨并行

他们没有直接关闭 Prometheus，而是在旁边部署了一套 VictoriaMetrics，让它们同时从 TiDB 集群采集完全相同的数据。

Step 2: 对比验证，建立信任

在双轨运行阶段，工程师们持续对比两个系统的数据准确性、查询性能和资源消耗。这个阶段让他们用真实数据验证了 VM 的所有优势，并建立了切换的信心。

Step 3: 优雅切换，最终交割

在确认一切平稳后，他们将 Grafana 的数据源从 Prometheus 指向 VictoriaMetrics，然后从容地关闭了 Prometheus 服务。整个过程对用户和工程师完全透明，没有造成任何监控停机或数据丢失。

小结

这次从 Prometheus 到 VictoriaMetrics 的迁移，不是一次对 Prometheus 的否定。Prometheus 依然是一个极其优秀、定义了行业的伟大工具，对于 90% 的场景，它简单、可靠，是最佳选择。

但这个案例证明，技术选型没有永恒的“银弹”，只有在特定规模和场景下的“最合适的工具”。

当你的系统规模跨越了某个临界点，过去让你引以为傲的“简单”架构，就可能成为你继续前进的“诅咒”。勇于直面工具的边界，并基于翔实的数据和严谨的流程做出改变，这本身就是一种宝贵的工程能力。

更值得关注的是，就在近期，VictoriaMetrics 团队宣布将其另外两个关键的可观测性产品——VictoriaLogs 和 VictoriaTrace——作为独立的开源项目发布。这意味着 VictoriaMetrics 不再仅仅满足于成为一个 Metrics 领域的强者，它的目标是构建一个覆盖 Metrics, Logs, Traces 的全方位、高性能可观测性平台。

对于 TiDB 和其他面临类似挑战的大规模系统而言，VictoriaMetrics 已经被证明是一个坚实的基础。而对于整个云原生社区，一个更强大、更全面的可观测性“新王”，或许正在悄然加冕。

你的Go技能，是否也卡在了“熟练”到“精通”的瓶颈期？