AI 行业集体转向 eval,却在回避那个真问题
2026 年,AI 圈最热的工程实践之一,是给模型和 agent 建「评估体系」(evals)。
打法已经相当成熟:从真实失败案例里攒一个金标准数据集,训练一个你信得过的打分器,再用一个「对齐过人类评审」的大模型当裁判,最后用一道 CI 关卡,挡住每一次质量退步。Anthropic 专门写文章教大家怎么做 eval;有调研说 32% 的团队认为挡住 AI 产品上线的头号障碍就是质量。一时间,eval 被当成一门让 AI 变可靠的工程纪律在推。
这套东西确实有用。但我的观察是:大家正在把一个组织问题,包装成工程问题来解决——而那个组织问题,eval 解决不了。
把工程的壳剥掉,eval 到底是什么
一套 eval 体系,去掉「数据集 / 打分器 / CI」这些工程外壳,本质上只有两样东西:一份「我们认为什么算好、什么绝不能忍」的书面定义,加一个执行它的机制。
搭管线、跑 CI 这部分是容易的,也最快被工具化。难的是前半句——到底什么算好? 这不是工程问题,是判断问题。而判断,恰恰是 eval 想绕、却绕不过去的地方。
「用大模型当裁判」只是把问题往后挪了一格
现在流行用一个 LLM 当裁判,并声称它「对齐了人类评审」。听着很科学,但追问一句就露馅:对齐了哪些人类?谁的品味?
裁判模型不产生标准,它只复制你喂给它的标准。你的金标准数据集里藏着谁的判断,你的 eval 就只有那个水平的判断。所谓「从真实失败里攒数据集」,本质是一份伪装成测试数据的价值观文档——它记录的是「我们这个团队不能容忍什么」。
换句话说:eval 放大你已有的品味,但给不了你品味。 一个判断力稀烂、却配了套漂亮 eval 管线的团队,得到的不是好产品,是「更快、更稳定地批量产出平庸」。
eval 热潮真正暴露的事
「AI 什么都能做」这套叙事,本来许诺要溶解掉那个把关质量的人。而 eval 热潮,是整个行业在悄悄把这个角色重新请回来——只不过给它换了个工程化的名字。
潜台词不太好听:AI 没有消灭那个有判断力的人,它把这个人变成了瓶颈。 执行越便宜,「定义什么是好」就越稀缺。大家忙着建 eval,其实是在迟来地承认这件事。
所以我对接下来的判断是:赢家不会是 eval 管线最花哨的团队,而是对「好」最有主见、定义得最清楚的团队。 因为管线只会忠实执行你给它的标准,而大多数团队的标准是一团浆糊。
eval 从来不是一个测量问题。它是这个行业在慢慢承认:总得有人来决定什么是好——而这,恰恰是最不可规模化的那件事。
讨论