大模型正在见顶!传奇架构师:欢迎来到“平坦曲线时代”

本文永久链接 – https://tonybai.com/2026/06/20/steve-yegge-the-flat-curve-society

大家好,我是Tony Bai。

在过去的两年里,全球的软件创业者和开发者都生活在一种“技术栈焦虑”中。

你今天刚熬夜写完一个产品,或者刚拿到一笔融资准备大干一步,脑子里却时刻悬着一把达摩克利斯之剑:“如果两周后新版Claude或GPT模型发布,我的所有工作是不是会瞬间灰飞烟灭?” 这种脚下土地每时每刻都在剧烈晃动、随时面临降维打击的感觉,让整个行业陷入了长期的精神衰弱。

然而,就在近日,硅谷传奇程序员、写了 40 年代码的行业老炮 Steve Yegge(曾任职于亚马逊、谷歌、Grab,Sourcegraph等大厂)发表了一篇极具颠覆性的万字长文:《The Flat Curve Society(平坦曲线俱乐部)》。

在这篇文章中,Steve 抛出了一个让所有人深思的断言:大模型的指数级增长正在迅速放缓,我们已经撞上了物理与安全的双重墙壁,正式进入了“平坦曲线时代”。

但这绝不是坏消息。相反,Steve 认为,这是三年来系统级开发者和创业者迎来的最好消息——我们终于摆脱了动荡不定的流沙,重新踏上了坚固的土地。

为什么大模型开始“见顶”?悄然降临的双重物理视界

为什么大模型的进化曲线会在今年开始迅速变平?Steve 提出了一个极其硬核的“双重视界模型(Double Horizons)”

1. 需求视界(The Demand Horizon)

对于你日常能接触到的 90% 的普通任务,市面上现有的中轻量模型(如 Claude Sonnet等)已经把体验触到了天花板。你甚至无法区分两个模型的优劣,因为你的问题还不够难,没有撑开模型的“需求视界”

但当你真正拿出一个地狱难度的复杂工程(比如 Steve 自己写的游戏 React 客户端代码重构)去测最顶尖的模型时,它们依然会频繁犯错。

2. 辨识视界(The Discernment Horizon – 终极物理屏障)

这是导致模型无法无限强大的最致命原因。

这个视界不是由“你提的最难问题”决定的,而是由“人类能验证的最难答案”决定的。

当模型的智力超越人类极限时,“超人智能(Superhuman)”就等同于“不可验证(Unverifiable)”

  • 如果一个模型写出了一套长达数万行、极其晦涩但宣称完美的芯片调度算法,而全地球没有任何一个人类科学家有能力去验证这段代码的正确性,你敢把它直接部署到生产环境吗?你不敢。
  • 这种无法被监督、随时可能带偏人类的超级模型,在安全专家眼里等同于“核武器”

因此,出于安全和政治博弈(类似于管制浓缩铀),各大实验室和政府一定会对顶尖模型进行严密的物理封锁。这就决定了,我们在市面上能够公开、自由、低成本调用的模型能力,将长期止步于当前这个平台期。

行业大洗牌:SaaS 强力回归,无脑 Vibe Coding 破产

当模型能力进入平台期,之前很多被吹上天的“人类幻觉”正在迅速破灭:

  1. “周末一键用 AI 重写一切”的时代结束了:当模型不再发生跨代级的智力飞跃,试图用 AI 智能体去重写复杂的企业遗留单体代码(Monoliths),其维护成本和崩溃风险将变得不可接受。
  2. SaaS 强势回归(SaaS is Back, Baby):之前人们大呼“SaaS 已死,以后人人都可以用 AI 自建工具”。但现在,企业发现自建工具的词元(Token)成本和维护成本是一个无底洞。购买拥有可预测成本、高确定性的成熟 SaaS 产品,重新成为了大厂高管最理智的决定。

奈飞(Netflix)的实践:10 小时打造三大“AI 素养”梯队

既然普通人可以接触到的模型能力在短期内不会再发生核弹级的跃迁,那么下一个阶段的胜负手在哪里?

Steve 指出,答案在于 “AI 素养(AI Literacy)”——即你的团队到底有多懂如何高效、廉价地使用 AI。

他分享了来自 Netflix(奈飞) 的一项让人大开眼界的内部培训实验,奈飞通过对员工日常 Token(词元)消耗量和使用习惯的监控,将员工的“AI 素养”精确地划分为了三大核心梯队:

  • 第一梯队:初级活跃用户(Beginners / Users)
    • 特征:刚脱离“AI 文盲”状态。开始在日常工作中高频使用单点 Prompt。
    • 数据指标:开始产生日常 Token 消耗,但依然需要人类在旁边紧密盯着,无法放手让 AI 独立执行多步任务。
  • 第二梯队:基线 AI 素养(Baseline AI Literacy)
    • 特征:能够熟练进行多智能体编排与异步授权。
    • 数据指标每日稳定消耗 1200 万 – 1500 万 Tokens。在这一阶段,员工已经可以完全信任并放手让 2 到 4 个 Agent 在后台独立、异步工作,自己只负责在终点进行审计。
  • 第三梯队:超级用户(Power Users / Advanced)
    • 特征:能够将 AI 完美融入复杂的系统级开发、Bug 自动搜索与 CI/CD 流水线。
    • 数据指标每日稳定消耗 5000 万以上 Tokens

奈飞的实验证明,将一个完全不懂 AI 的“技术文盲”,培训到能够熟练调配多 Agent 协作的第二梯队,只需要 5 个小时的集中训练!再花 5 个小时,就能让他们晋升为超级用户。96% 的人在完成培训六周后,依然保持着极高的 AI 协作惯性。

未来的竞争,不再是“谁的模型更聪明”,而是“谁的团队 AI 素养更高”。

下半场的新游戏:从“狂烧 Token”走向“Token 洁癖(词元成本管理)”

在平坦曲线时代,无限烧 Token 的粗放型开发正在快速破产。Steve 提出了一个高阶开发者必须掌握的核心概念——“Token 洁癖 / 词元使用规范(Token Hygiene)”

“AI 素养”在初级阶段,表现为你会消耗多少 Token;但到了高级阶段,表现为你在客观审视系统时,对多余的上下文开销有着极高的“洁癖”,能主动节约多少 Token 浪费。

1. 愚蠢的“自动搬砖”

很多新手会写一句话,让 Agent 去执行 git status 或者去硬盘里找一个文件名。

这是一个极度愚蠢的习惯。因为为了让 Agent 执行这个简单操作,它需要把你的整个目录结构作为上下文(Context)上传到云端,这在瞬间就会浪费掉 10 万个 Token

“如果你用手打一行命令只要 1 秒,就请用手打!别让 Agent 去干,每次手动操作能帮你省下几美分的 API 账单。”

2. 智能路由(Smart Routing)

高级的 AI 组织必须学会建立“路由机制”:把 90% 最愚蠢、最简单的问题路由给最便宜、甚至免费的模型;只有当任务触及复杂推理时,再将其升级(Escalate)到昂贵的顶级模型。

“在最高境界,AI 素养将变成一门关于‘如何用最少的 Token 开销,压榨出最大化业务成果’的系统级控制艺术。”

小结:平坦曲线是留给务实建设者的礼物

Steve Yegge 用一幅极其温情的插图——“Campground Craft(营地建设)” 结束了他的万字长文。

大模型的进化曲线变平,不仅不是坏事,反而是一次历史性的解放:

在过去的两三年里,创业者和开发者如同生活在随时会爆发海啸的沙滩上。你永远在焦虑自己辛辛苦苦构建的产品,会在下一次 GPT or Claude 的发布会中沦为废墟。

而平坦曲线的到来,意味着游戏规则终于稳定了。Sonnet 级别和 Opus 级别的模型能力,将在未来的好几年里保持行业主流地位。

这意味着,我们终于可以脚踏实地地坐下来,开始在坚固的土地上安营扎寨。 我们可以去设计更精妙的多 Agent 路由网络、去优化我们的数据库、去打磨我们的用户体验,去写出真正能运行十年的、伟大的、有工匠精神的系统。

属于浮躁投机者的时代已经结束,属于务实系统工程师的黄金时代,才刚刚开始。现在,擦干因焦虑而流下的汗水,让我们开始在平坦的草原上,修建那座真正属于未来的软件大厦。

资料链接:https://steve-yegge.medium.com/the-flat-curve-society-36c8b01eb33b


今日开放讨论:

你同意 Steve Yegge 关于“大模型能力进入平原期,SaaS 正在回归”的判断吗?在你的团队中,是否也存在“无节制消耗 Token 却产出大量平庸垃圾代码(Slop)”的现象?你打算如何开始在团队内部推行“Token 成本管理”?

欢迎在评论区留下你最深刻的系统级思考,我们一起在平坦曲线时代寻找前行的光芒!


还在为写 Agent 框架频频死循环、上下文爆炸而束手无策?我的新专栏 从0 开始构建 Agent Harness 将带你:

  • 抛弃臃肿框架,回归“驾驭工程 (Harness Engineering)”的第一性原理
  • 用 Go 语言手写 ReAct 循环、并发拦截与上下文压缩引擎等,复刻极简OpenClaw
  • 构建坚不可摧的 Safety Middleware 与飞书人工审批防线
  • 在底层实现 Token 成本审计、链路追踪与自动化跑分评估
  • 从“调包侠”进化为掌控大模型边界的“AI 操作系统架构师”

扫描下方二维码,开启从 0 开始构建Agent Harness 的实战之旅。


原「Gopher部落」已重装升级为「Go & AI 精进营」知识星球,快来加入星球,开启你的技术跃迁之旅吧!

我们致力于打造一个高品质的 Go 语言深度学习AI 应用探索 平台。在这里,你将获得:

  • 体系化 Go 核心进阶内容: 深入「Go原理课」、「Go进阶课」、「Go避坑课」等独家深度专栏,夯实你的 Go 内功。
  • 前沿 Go+AI 实战赋能: 紧跟时代步伐,学习「Go+AI应用实战」、「Agent开发实战课」、「Agentic软件工程课」、「Claude Code开发工作流实战课」、「OpenClaw实战分享」等,掌握 AI 时代新技能。
  • 星主 Tony Bai 亲自答疑: 遇到难题?星主第一时间为你深度解析,扫清学习障碍。
  • 高活跃 Gopher 交流圈: 与众多优秀 Gopher 分享心得、讨论技术,碰撞思想火花。
  • 独家资源与内容首发: 技术文章、课程更新、精选资源,第一时间触达。

衷心希望「Go & AI 精进营」能成为你学习、进步、交流的港湾。让我们在此相聚,享受技术精进的快乐!欢迎你的加入!

img{512x368}


商务合作方式:撰稿、出书、培训、在线课程、合伙创业、咨询、广告合作。如有需求,请扫描下方公众号二维码,与我私信联系。

Anthropic 40万大样本揭秘:AI 时代为什么“专家”身价暴涨?

本文永久链接 – https://tonybai.com/2026/06/19/agentic-coding-and-persistent-returns-to-expertise

大家好,我是Tony Bai。

在生成式 AI 狂飙的今天,程序员群体正陷入一种前所未有的分化和焦虑中:

  • 初级开发觉得前路茫茫,因为大模型写出的业务代码比他们更快、更整洁;
  • 资深架构师虽然暂时安全,但也时刻担心随着大模型逻辑推理能力的指数级进化,自己的行业经验终有一天会被无情商品化。

“AI 究竟是专家经验的放大器,还是专家经验的掘墓人?”

为了彻底用科学数据回答这个终极命题,大模型领域无可争议的“编码之王” Claude 的母公司 Anthropic,于近日发布了一份具有里程碑意义的实证研究报告:Agentic coding and persistent returns to expertise

这份白皮书的含金量极高。研究人员在确保隐私安全的前提下,深度追踪并分析了从 2025 年 10 月到 2026 年 4 月期间,全球开发者使用 Claude Code 的 40 万次真实交互会话(Sessions)。

报告揭示出的事实极其震撼、甚至有些反直觉:大模型并没有让专家的经验贬值,反而让“专家经验”在 AI 时代迎来了前所未有的暴利和溢价;与此同时,那些只会写语法糖、没有领域常识(Domain Knowledge)的普通程序员,正在被无情地边缘化。

下面,我们就用白皮书里的硬核数据,层层剥开这场残酷的 AI 权力重构。

权力的边界:人类负责“定目标”(70%),AI 负责“搬砖”(80%)

在这份大样本分析中,Anthropic 首先定义了人机协作在智能体编码(Agentic Coding)时代的新型分工模型(The division of labor)

研究人员通过机器学习分类器,对 40 万次会话中的每一个动作进行了属性归类。他们惊奇地发现,人类与 Claude Code 在开发过程中展现出了极度清晰的边界:

  • 人类主导“规划决策(What to do)”:在决定系统要构建什么功能、采用什么业务逻辑、遵循什么系统规范时,人类做出了 70% 的决策。
  • AI 主导“执行决策(How to do it)”:在决定调用什么命令、修改哪些文件、使用什么具体语法、以及运行什么测试脚本时,Claude 承担了 80% 的工作。


图:人机分工实证:人类牢牢掌控着 70% 的架构和业务规划决策,而 AI 则在底层包揽了 80% 的具体代码执行

这证实了:在真实的工业级开发中,大模型并不是在“取代”程序员,而是成为了一个不知疲倦、效率极高的“执行义肢”。人类出脑子(Framer),AI 出体力(Executor),这种分工正在成为现代软件开发的黄金标准。

专家溢价:为什么 AI 越强,资深专家的身价越贵?

这是整篇白皮书中最核心、也最震撼的发现:AI 的出现,极大地拉大了“专家”与“新手”之间的产出差距。

为了精确筛选和分析这 40 万次人机对话,Anthropic 在底层构建了一个极其严密的“五级经验分类器”。他们通过机器学习,根据人类输入提示词的专业度,对用户的工程段位进行了无情分类。

这套分类器不仅是学术工具,更是我们每个普通开发者自测“AI 时代身价”的终极试金石

  • L1 – 萌新(Novice)
    • 标准:完全不使用任何领域专业术语,对 AI 的报错毫无感知,只能进行通用的验证。
    • 典型 Prompt:“你能帮我分析这些数据并画个图吗?” / “帮我看看趋势,求求你了。”
  • L2 – 初学者(Beginner)
    • 标准:开始使用少量的专业术语,但验证请求漫无目的,只有在 AI 犯了极其低级、显而易见的错误时才会进行反驳。
    • 典型 Prompt:“BigQuery 是什么?” / “你能跑个简单的 Demo 带我过一遍吗?” / “等下,你用的是我队友给的那个精确规范(Specification)吗?”
  • L3 – 中级(Intermediate)
    • 标准:能够用一定的领域专业性来框定问题,但无法深入探讨底层设计权衡。能进行一些非通用的检查,并开始主动捕捉 AI 的错误。
    • 典型 Prompt:“帮我看看这个分支能安全合并(Merge)吗?” / “如果我们在前端页面的每个部分建立单独的文件夹,会不会优化各个 Section 的缓存(Caching)?”
  • L4 – 高级(Advanced)
    • 标准:展现出强烈的领域知识,能够在不依赖 AI 提示的情况下,提前预判 AI 在该领域极易犯的特定错误。验证针对性极强,至少能揪出一次 AI 犯的底层逻辑错误。
    • 典型 Prompt:“在进入第三阶段之前,测试这一步的最佳方法是什么?” / “正则(Regex)在这里太脆了,有没有更稳固(More bullet proof)的方法,在解析 JSON 时基于 record 字段来进行键值提取?”
  • L5 – 专家(Expert)
    • 标准:使用极度复杂的行业黑话,能精准预测复杂的架构设计权衡。验证精准打击系统最薄弱的关节。能够无情纠正 AI 的错误,而 AI 几乎无法纠正专家的逻辑。
    • 典型 Prompt:“上个版本 PR 的修复根本不够,我们需要更深地排查用户反馈的这个 Bug。yeah,我们也许需要把‘强制刷新(hard refresh)’根据‘托管/非托管插槽(slots)’做进一步的拆分。 sync 必须可靠地知道锁(lock)的状态,还记得由于 valueDb 变脏(stale)而导致不断尝试设 Pin 的死循环 Bug 吗?

在这套分类下,专家与新手在使用同一个 Claude Code 时,展现出了两个维度的“遥遥领先”:

1. 成功率的云泥之别(91% vs 15%)

根据白皮书的统计:在面临高难度的软件工程任务时,新手的完全成功率只有可怜的 15%(在最宽松的指标下也只有 39%);而 L5 级别的领域专家,其成功率直接飙升到了 91%!


图:随着用户专业度的提升(L1 到 L5),AI 辅助下的项目成功率从 15% 呈指数级飙升至 91%

2. 吞吐量红利(AI 愿意为专家干更多的活)

数据表明,当新手发出一条指令时,Claude Code 平均只会执行 4.9 次行动,吐出 607 个单词。

而当 L5 级别的专家发出一条指令时,Claude 会如同遇到知音一样,在后台自动触发一系列复杂的链式反应,平均执行 11.7 次高级行动,狂喷 3,200 个单词的高质量代码!

为什么会这样?

因为 AI 智能体在面对模糊、没有领域常识的提问时,会迅速陷入“误解 -> 生成垃圾代码 -> 被编译器报错 -> 再次生成垃圾 -> 用户放弃(Abandon)”的死循环。

而面对专家时,由于专家给出了极其精确的“业务边界限制(Guardrails)”“情境品味(Situated Taste)”,AI 能够顺着正确的方向无限hill-climbing(爬坡),发挥出大模型最极致的推理深度。

同时,当 AI 犯错时,新手无能为力,只能眼睁睁看着它胡说八道;而专家能够瞬间识别出 AI 的漏洞,给出一句精准的“纠偏提示”,牵着 AI 的手跨过泥潭。

边界消除:会写代码的审计师,正在干掉不会审计的程序员

如果说“专家在软件开发里更赚钱”还在我们的意料之中,那么白皮书指出的第三个趋势,则无情地打破了传统程序员的行业垄断:非软件行业的专家,正在用 AI “降维打击”传统的初级码农。

请仔细看白皮书给出的各行各业在使用 Claude 编写代码时的成功率:

  1. 软件与数学专家:成功率 94%。
  2. 管理人员(Management):成功率 95%!
  3. 法律人员(Legal):成功率 97%!
  4. 商业与金融专家(Business & Finance):成功率 90%!

我们从图中可以看出惊人的行业跨界:凭借深刻的领域经验(Domain Expertise),金融、法律和管理人员在 AI 辅助下的编码成功率,几乎与专业软件工程师持平,甚至有所超越。

这绝对是一个核弹级的发现:决定代码质量的,不再是你的“编程语法熟练度”,而是你对“业务逻辑和领域常识的理解深度”。

  • 一个完全不会写 Python 语法的资深会计师,通过 Claude Code,能够极其精确地描述出月末账目对账(Month-end reconciliation)的业务规则、税法限制以及漏单退回逻辑。Claude 能够根据他提供的完美业务逻辑,在几秒钟内生成一段毫无瑕疵的 Python 财务自动化工具。
  • 而一个懂 Python 语法、却对财务审计一窍不通的初级程序员,他写出来的代码,在业务层面上大概率是充满漏洞的垃圾(Slop)。

“业务逻辑与情境品味(Situated Taste),正在成为 AI 时代最坚固的技术壁垒。而单纯的语法编写,已经彻底沦为了廉价的机器工。”

价值重构:如何成为不被“垃圾代码”淹没的 10%?

Anthropic 在报告的后半部分,进行了一项极其严谨的经济学评估:他们通过对比自由职业市场(Freelance job postings)的实际标价,来评估 40 万次 Claude 会话产生的经济价值。

数据显示,在短短 7 个月内,由 Claude Code 完成的任务的平均经济价值,暴涨了约 25%!

这说明,随着模型对工具调用、测试和自动化部署的演进,AI 正在以前所未有的速度吞噬那些“低价值的、纯编写的工作”。

这也给所有的软件工程师指明了一条唯一的出路:

  1. 从“如何写(How)”迅速向“写什么(What)”转型:如果你的日常工作只是把产品经理的 PRD 翻译成代码语法,你和 AI 相比没有任何竞争优势。你必须去深入理解业务,理解数据库底层设计,去成为那个“定标和画框的人”。
  2. 建立“纠偏与审计”能力**:大模型会源源不断地生成看似完美的代码。未来的高级工程师,其核心工作将是“代码审计师(Code Auditor)”。你必须能在几秒钟内,看出 AI 生成的千行代码中,那个隐藏在锁竞争或并发状态下的微小 Bug。
  3. 深耕一个具体的垂直领域:不要做“通用的、只会写增删改查(CRUD)的程序员”。去深入医疗、金融、安全、芯片物理、或者高性能网络。

小结

大模型并没有让专家的经验贬值,反而像一把高压水枪,正在迅速冲刷掉代码工程中的淤泥,让真正拥有“业务品味”和“领域常识”的金子,闪耀出前所未有的夺目光芒。

AI 降低了普通人写代码的门槛,但也让“垃圾代码”遍地都是。

在这个平庸泛滥的时代,决定你身价的,不再是你敲击键盘的速度,而是你脑海中沉淀的那些、无法被文本化的行业直觉与工程审美。

在这场人机共生的伟大战役中,我们既要学会借用神明的光芒,也要时刻警惕不要沦为神殿下盲目的祭品。

资料链接:https://www.anthropic.com/research/claude-code-expertise


还在为“复制粘贴喂AI”而烦恼?我的新专栏 AI原生开发工作流实战 将带你:

  • 告别低效,重塑开发范式
  • 驾驭AI Agent(Claude Code),实现工作流自动化
  • 从“AI使用者”进化为规范驱动开发的“工作流指挥家”

扫描下方二维码,开启你的AI原生开发之旅。


原「Gopher部落」已重装升级为「Go & AI 精进营」知识星球,快来加入星球,开启你的技术跃迁之旅吧!

我们致力于打造一个高品质的 Go 语言深度学习AI 应用探索 平台。在这里,你将获得:

  • 体系化 Go 核心进阶内容: 深入「Go原理课」、「Go进阶课」、「Go避坑课」等独家深度专栏,夯实你的 Go 内功。
  • 前沿 Go+AI 实战赋能: 紧跟时代步伐,学习「Go+AI应用实战」、「Agent开发实战课」、「Agentic软件工程课」、「Claude Code开发工作流实战课」、「OpenClaw实战分享」等,掌握 AI 时代新技能。
  • 星主 Tony Bai 亲自答疑: 遇到难题?星主第一时间为你深度解析,扫清学习障碍。
  • 高活跃 Gopher 交流圈: 与众多优秀 Gopher 分享心得、讨论技术,碰撞思想火花。
  • 独家资源与内容首发: 技术文章、课程更新、精选资源,第一时间触达。

衷心希望「Go & AI 精进营」能成为你学习、进步、交流的港湾。让我们在此相聚,享受技术精进的快乐!欢迎你的加入!

img{512x368}


商务合作方式:撰稿、出书、培训、在线课程、合伙创业、咨询、广告合作。如有需求,请扫描下方公众号二维码,与我私信联系。

如发现本站页面被黑,比如:挂载广告、挖矿等恶意代码,请朋友们及时联系我。十分感谢! Go语言第一课 Go语言进阶课 AI原生开发工作流实战 从 0 开始构建 Agent Harness Go语言精进之路1 Go语言精进之路2 Go语言第一课 Go语言编程指南
商务合作请联系bigwhite.cn AT aliyun.com
这里是 Tony Bai的个人Blog,欢迎访问、订阅和留言! 订阅Feed请点击上面图片

如果您觉得这里的文章对您有帮助,请扫描上方二维码进行捐赠 ,加油后的Tony Bai将会为您呈现更多精彩的文章,谢谢!

如果您希望通过微信捐赠,请用微信客户端扫描下方赞赏码:

如果您希望通过比特币或以太币捐赠,可以扫描下方二维码:

比特币:

以太币:

如果您喜欢通过微信浏览本站内容,可以扫描下方二维码,订阅本站官方微信订阅号“iamtonybai”;点击二维码,可直达本人官方微博主页^_^:
本站Powered by Digital Ocean VPS。
选择Digital Ocean VPS主机,即可获得10美元现金充值,可 免费使用两个月哟! 著名主机提供商Linode 10$优惠码:linode10,在 这里注册即可免费获 得。阿里云推荐码: 1WFZ0V立享9折!


View Tony Bai's profile on LinkedIn
DigitalOcean Referral Badge

文章

评论

  • 正在加载...

分类

标签

归档



View My Stats