16 个资深程序员用 AI 编程,以为快了 20%,其实慢了 19%
我先说那个让我后背发凉的数字。
METR 的随机对照实验,找了 16 个干了很多年的资深开源程序员,在他们自己平均维护了五年的项目上做真实任务,一半用 AI 工具,一半不用。用 AI 的那组,慢了 19%。慢一点不稀奇。真正的问题在另一半:这些人事前预测 AI 能让他们快 24%,等真干完、亲身经历了变慢之后,他们仍然以为自己快了 20%。体感和实际差了快 40 个百分点,方向还是反的。
我后来一直在想,为什么人会错得这么离谱,而且是在自己最熟的活上错。
拿我自己用 AI 写东西的体感能解释一大半。你敲一句话,一屏代码就出来了,那一下是真的爽,手指几乎没动,脑子里冒出来的念头是「这么快就有了」。但那只是整件事的开头。接下来你得读它写的、判断对不对、跑一遍,然后发现它把一个似是而非的逻辑写得特别工整、特别像对的,再花二十分钟把这个「看着对其实不对」的东西揪出来。前面那一下的爽,被记成了「快」;后面这二十分钟的较劲,不会被算进「写代码」,会被算进「调试」「今天状态不好」。AI 省下的是敲键盘的体力,多出来的是核对的脑力,而人对省体力很敏感,对多花脑力很麻木。这就是体感和秒表对不上的地方。
还有个容易被跳过的前提:这 16 个人,是在自己泡了五年的代码里干活。这种地方恰恰是 AI 最帮不上、甚至最容易帮倒忙的,因为你本来就比任何模型都懂这套系统,它的建议有一半是在把你早想清楚的事重新猜一遍,你还得花时间确认它没猜歪。换个场景结论可能就反过来:让我去碰一个完全陌生的框架、写一堆模板代码、或者从零起一个小工具,AI 大概率是真的快。所以这条研究不是在说「AI 没用」,它说的是 AI 的快慢极度挑场景,而你的体感根本分不清自己在哪个场景里。
为什么我做产品的会对这条格外在意。因为我们这行现在几乎每一个跟 AI 有关的决定,底下都压着同一句话:它让我们更快了。要不要加预算买工具,要不要少招两个人,这个季度能不能再多塞一个需求,老板问「上了 AI 提速多少」该怎么答,全靠这句话撑着。整个 2026 年的 AI 裁员潮,对外讲的也是这套提效叙事。可这条研究说的是:连亲手干活的人,对自己到底快没快都判断不准。那建在这个判断上的预算、排期、裁员,地基是松的。更麻烦的是我想验证还特别难,因为我能想到的第一个办法,就是去问团队「AI 帮上忙了吗」,而这恰好是最不该信的那个数据来源。
所以这半年我做了件挺具体的事:把「感觉快多了」从证据里划掉。再有人这么说,包括我自己说,我都先追一句,哪儿能看出来。这个迭代比上一个少花了几天,线上 bug 是多了还是少了,返工有没有变多,AI 写的那段后来回头改了几次。有数我就信,没数就当成一句体感,存着疑。我也不再笼统问「AI 有没有用」,改成问「在哪段活儿上有用」。补全、查陌生 API、起新项目,大概率有;动我们自己那套跑了多年的老系统,我默认它会拖慢,除非有人能拿出反例让我改主意。
讨论