本文永久链接 – https://tonybai.com/2025/12/27/code-review-hell-in-ai-age

大家好,我是Tony Bai。

最近,在与几位架构师朋友的交流中,一个在 AI 编码时代下越来越普遍的“灵魂拷问”浮出水面。这不仅是一个问题,更是他们正在亲身经历的“代码审查地狱 (Code Review Hell)”。

想象一下这个场景:由 AI Agent 生成的代码正以前所未有的速度涌来,堆积如山;你花费心力给出的精辟修改意见,却被开发者转身当作新的 Prompt 重新喂给了 AI;片刻之后,一个全新的 PR 诞生了——它看起来解决了旧问题,却可能带着一堆你从未见过的新问题。你感觉自己深陷于“生成-审查-再生成”的无限循环中,身心俱疲。

这场危机并非危言耸听。在 Uber,每周有超过 65,000 个变更(相当于 PR)需要审查。当 AI 辅助编码成为常态,传统的 Code Review 流程已濒临崩溃。

但这究竟是末日,还是进化的前夜?答案是后者。这场危机,正催生一场深刻的变革——一方面,它要求架构师完成从“创作者”到“导演”的角色进化;另一方面,它也催生了像 Uber uReview 这样复杂的、系统化的 AI 审查平台。

本文将结合对当前危机的剖析与 Uber 的大规模工程实践,为各位小伙伴儿揭示这场变革的本质与破局之路。

危机的剖析:我们到底在审查什么?

要逃离地狱,必先理解地狱的构造。这场危机的根源,在于 AI 颠覆了代码的“创作”过程,从而动摇了 Code Review 的根基:

  1. 思考过程“黑箱化”: 传统的 Code Review,我们审查的是代码,更是其背后开发者的思考路径。而 AI 的介入,将这个思考过程隐藏了起来。
  2. 审查对象“降维”: 审查被迫从“这段设计是否优雅?”降维到了“这次 AI 输出是否碰巧正确?”。
  3. 学习循环“断裂”: 开发者跳过了对 Review 意见最关键的“理解与吸收”环节,宝贵的经验传承被阻断。

天真地想用“AI 审查 AI”来解决问题,只会陷入更深的陷阱。正如 Uber 在其 uReview 项目初期所发现的,未经驯化的 LLM 会产生大量“幻觉”和“低价值的误报”,比如在非性能敏感的代码中挑剔性能问题。这些“噪音”会迅速侵蚀工程师对工具的信任,最终导致他们“调低音量并忽略它们”。

破局之路(上):架构师的进化——从“创作者”到“代码导演”

面对危机,架构师和资深开发者的核心价值,必须从 Code Writer (代码创作者),进化为 Code Director & Editor (代码导演与总编)

“导演”不亲自扮演每个角色,但他定义了整部戏的基调、框架和最终质量。这份“代码导演”的实战手册,为我们指明了方向:

  • 实践 1:审查“左移”,审查“剧本”而非“表演”
    在开发者大规模生成代码前,先审查其核心设计思路、任务分解和关键 Prompt。确保“剧本”是对的,再让 AI 这个高效的“演员”去表演。

  • 实践 2:制定 AI 时代的 Code Review 新规

    • 明确标识 AI 代码,为审查者提供“警示”。
    • 强制开发者解释“为何接受”AI 方案,夺回思考的主动权。
    • 禁止“甩锅式再生成”,保护学习循环。
  • 实践 3:定义“AI-Go”与“AI-No-Go”区域
    将 AI 的使用限制在单元测试、文档、模板代码等 AI-Go 区域,而在核心业务逻辑、安全代码等 AI-No-Go 区域保持高度警惕,让人类智慧主导。

破局之路(下):Uber 的 uReview——“导演”的智能副驾

如果说“代码导演”模型描绘了架构师的“个人修炼心法”,那么 Uber 的 uReview 平台则展示了如何将这些理念,构建成一个大规模、系统化的工程解决方案。uReview 并非要取代人类,而是作为一个“智能副驾”或“第二审查员”,来增强人类的能力。

面对 AI 生成代码的洪水,Uber 没有让 uReview 直接进行审查,而是构建了一个精密的、多阶段的过滤管道,这与“导演”的思维方式不谋而合:


图:Uber uReview 的多阶段处理流水线

  1. 预处理: 首先,系统会过滤掉配置文件、自动生成的代码等低价值目标,只聚焦于需要审查的核心代码。
  2. 专业分工: uReview 并未使用单一的通用 AI,而是设计了多个“专家助理”
    • Standard Assistant: 专注于逻辑缺陷、错误处理等 Bug。
    • Best Practices Assistant: 对照 Uber 内部的风格指南,检查代码是否符合规范。
    • AppSec Assistant: 专门寻找应用层的安全漏洞。
      这完美印证了“定义 AI-Go/No-Go 区域”的思想——让专业的 AI 干专业的事。
  3. 严格品控: 这是 uReview 的核心,也是对“警惕 AI 幻觉”的最佳回应。它包含一个多层过滤过程:
    • 二次评估:另一个 AI(Review Grader)会对生成的每条评论进行打分,过滤掉低置信度的评论。
    • 语义去重:合并相似的建议。
    • 分类抑制:自动压制那些历史上被证明对开发者价值不大的评论类别。

Uber 的实践经验,为我们带来了几条宝贵的“场内教训”,这些教训与架构师的直觉高度一致:

  • 精准比数量更重要: 充满噪音的建议会迅速摧毁信任。uReview 的核心策略就是“提供更少但更有用的评论”。
  • 护栏与提示词同等重要: 优秀的系统架构和后处理流程,远比单纯的提示词工程更关键。
  • 开发者讨厌文体说教: AI 提出的代码可读性、日志微调等建议,普遍不受欢迎。开发者更珍视对正确性、Bug 和最佳实践这种“高信噪比”的反馈。
  • AI 善于抓虫,而非评估设计: 由于缺乏设计文档、业务背景等上下文,AI 无法评估系统设计的优劣。这再次强调了人类“导演”在宏观设计上不可替代的价值。

如今,uReview 在 Uber 内部取得了巨大成功:超过 75% 的 AI 评论被工程师标记为“有用”,每周节省约 1500 个工时,相当于每年近 39 个开发者年。

小结:拥抱人机协同的新未来

AI 带来的代码审查危机,实际上是一场深刻的产业升级。它迫使我们从对“代码”的微观审查,转向对“创作流程”的宏观把控。

“代码导演”模型为我们提供了战略指引,而 Uber 的 uReview 则展示了实现这一战略的工程蓝图。未来的 Code Review,不再是人与人的博弈,也不是人与 AI 的对抗,而是一种全新的“人机协同”模式:

架构师作为“导演”,定义设计、划定边界、把控最终质量;而像 uReview 这样的智能系统,则作为高效、精准、不知疲倦的“副驾驶”和“场务”,处理海量的细节检查,将人类从重复、繁琐的工作中解放出来。

最后,回到那个终极问题:谁来为质量负责?答案从未改变,也永远不会改变:永远是工程师自己。AI 是我们手中最强大的工具,但手握方向盘、对最终结果负责的,永远是我们自己。

资料链接:https://www.uber.com/blog/ureview/


聊聊你的“审查之痛”

AI 时代的 Code Review,正在成为每个技术团队的新挑战。在你所在的团队中,是否也遇到了 AI 代码带来的“审查地狱”?你们是如何应对的? 是明令禁止,还是像 Uber 一样积极构建自动化防线?

欢迎在评论区分享你的真实经历和思考! 让我们一起探索人机协同的最佳实践。

如果这篇文章对你有启发,别忘了点个【赞】和【在看】,并转发给你的架构师朋友,也许能帮他从“地狱”中解脱出来!


你的Go技能,是否也卡在了“熟练”到“精通”的瓶颈期?

  • 想写出更地道、更健壮的Go代码,却总在细节上踩坑?
  • 渴望提升软件设计能力,驾驭复杂Go项目却缺乏章法?
  • 想打造生产级的Go服务,却在工程化实践中屡屡受挫?

继《Go语言第一课》后,我的《Go语言进阶课》终于在极客时间与大家见面了!

我的全新极客时间专栏 《Tony Bai·Go语言进阶课》就是为这样的你量身打造!30+讲硬核内容,带你夯实语法认知,提升设计思维,锻造工程实践能力,更有实战项目串讲。

目标只有一个:助你完成从“Go熟练工”到“Go专家”的蜕变! 现在就加入,让你的Go技能再上一个新台阶!


商务合作方式:撰稿、出书、培训、在线课程、合伙创业、咨询、广告合作。如有需求,请扫描下方公众号二维码,与我私信联系。

© 2025, bigwhite. 版权所有.

Related posts:

  1. Uber性能优化实践:如何用 GenAI 将 Go 代码调优从数周缩短至数小时?
  2. 从 0 到 1.5 亿 QPS:Uber 核心存储架构的十年演进与缓存设计哲学
  3. 只要 Title 带“工程师”,你就必须写代码:Uber 杰出工程师的硬核建议
  4. Uber Go语言编码规范
  5. 警惕 AI 效率神话:你是“闪电战”的独立开发者,还是“持久战”的工程师?