2026-06-19

16 个资深程序员用 AI 编程，以为快了 20%，其实慢了 19%

我先说那个让我后背发凉的数字。

METR 的随机对照实验，找了 16 个干了很多年的资深开源程序员，在他们自己平均维护了五年的项目上做真实任务，一半用 AI 工具，一半不用。用 AI 的那组，慢了 19%。慢一点不稀奇。真正的问题在另一半：这些人事前预测 AI 能让他们快 24%，等真干完、亲身经历了变慢之后，他们仍然以为自己快了 20%。体感和实际差了快 40 个百分点，方向还是反的。

我后来一直在想，为什么人会错得这么离谱，而且是在自己最熟的活上错。

拿我自己用 AI 写东西的体感能解释一大半。你敲一句话，一屏代码就出来了，那一下是真的爽，手指几乎没动，脑子里冒出来的念头是「这么快就有了」。但那只是整件事的开头。接下来你得读它写的、判断对不对、跑一遍，然后发现它把一个似是而非的逻辑写得特别工整、特别像对的，再花二十分钟把这个「看着对其实不对」的东西揪出来。前面那一下的爽，被记成了「快」；后面这二十分钟的较劲，不会被算进「写代码」，会被算进「调试」「今天状态不好」。AI 省下的是敲键盘的体力，多出来的是核对的脑力，而人对省体力很敏感，对多花脑力很麻木。这就是体感和秒表对不上的地方。

还有个容易被跳过的前提：这 16 个人，是在自己泡了五年的代码里干活。这种地方恰恰是 AI 最帮不上、甚至最容易帮倒忙的，因为你本来就比任何模型都懂这套系统，它的建议有一半是在把你早想清楚的事重新猜一遍，你还得花时间确认它没猜歪。换个场景结论可能就反过来：让我去碰一个完全陌生的框架、写一堆模板代码、或者从零起一个小工具，AI 大概率是真的快。所以这条研究不是在说「AI 没用」，它说的是 AI 的快慢极度挑场景，而你的体感根本分不清自己在哪个场景里。

为什么我做产品的会对这条格外在意。因为我们这行现在几乎每一个跟 AI 有关的决定，底下都压着同一句话：它让我们更快了。要不要加预算买工具，要不要少招两个人，这个季度能不能再多塞一个需求，老板问「上了 AI 提速多少」该怎么答，全靠这句话撑着。整个 2026 年的 AI 裁员潮，对外讲的也是这套提效叙事。可这条研究说的是：连亲手干活的人，对自己到底快没快都判断不准。那建在这个判断上的预算、排期、裁员，地基是松的。更麻烦的是我想验证还特别难，因为我能想到的第一个办法，就是去问团队「AI 帮上忙了吗」，而这恰好是最不该信的那个数据来源。

所以这半年我做了件挺具体的事：把「感觉快多了」从证据里划掉。再有人这么说，包括我自己说，我都先追一句，哪儿能看出来。这个迭代比上一个少花了几天，线上 bug 是多了还是少了，返工有没有变多，AI 写的那段后来回头改了几次。有数我就信，没数就当成一句体感，存着疑。我也不再笼统问「AI 有没有用」，改成问「在哪段活儿上有用」。补全、查陌生 API、起新项目，大概率有；动我们自己那套跑了多年的老系统，我默认它会拖慢，除非有人能拿出反例让我改主意。

延伸阅读

标签 AI 编程研发效率产品经理 AI 提效科技评论

16 个资深程序员用 AI 编程，以为快了 20%，其实慢了 19%

延伸阅读

讨论