2026-06-08

AI 行业集体转向 eval，却在回避那个真问题

2026 年，AI 圈最热的工程实践之一，是给模型和 agent 建「评估体系」（evals）。

打法已经相当成熟：从真实失败案例里攒一个金标准数据集，训练一个你信得过的打分器，再用一个「对齐过人类评审」的大模型当裁判，最后用一道 CI 关卡，挡住每一次质量退步。Anthropic 专门写文章教大家怎么做 eval；有调研说 32% 的团队认为挡住 AI 产品上线的头号障碍就是质量。一时间，eval 被当成一门让 AI 变可靠的工程纪律在推。

这套东西确实有用。但我的观察是：大家正在把一个组织问题，包装成工程问题来解决——而那个组织问题，eval 解决不了。

把工程的壳剥掉，eval 到底是什么

一套 eval 体系，去掉「数据集 / 打分器 / CI」这些工程外壳，本质上只有两样东西：一份「我们认为什么算好、什么绝不能忍」的书面定义，加一个执行它的机制。

搭管线、跑 CI 这部分是容易的，也最快被工具化。难的是前半句——到底什么算好？ 这不是工程问题，是判断问题。而判断，恰恰是 eval 想绕、却绕不过去的地方。

「用大模型当裁判」只是把问题往后挪了一格

现在流行用一个 LLM 当裁判，并声称它「对齐了人类评审」。听着很科学，但追问一句就露馅：对齐了哪些人类？谁的品味？

裁判模型不产生标准，它只复制你喂给它的标准。你的金标准数据集里藏着谁的判断，你的 eval 就只有那个水平的判断。所谓「从真实失败里攒数据集」，本质是一份伪装成测试数据的价值观文档——它记录的是「我们这个团队不能容忍什么」。

换句话说：eval 放大你已有的品味，但给不了你品味。 一个判断力稀烂、却配了套漂亮 eval 管线的团队，得到的不是好产品，是「更快、更稳定地批量产出平庸」。

eval 热潮真正暴露的事

「AI 什么都能做」这套叙事，本来许诺要溶解掉那个把关质量的人。而 eval 热潮，是整个行业在悄悄把这个角色重新请回来——只不过给它换了个工程化的名字。

潜台词不太好听：AI 没有消灭那个有判断力的人，它把这个人变成了瓶颈。 执行越便宜，「定义什么是好」就越稀缺。大家忙着建 eval，其实是在迟来地承认这件事。

所以我对接下来的判断是：赢家不会是 eval 管线最花哨的团队，而是对「好」最有主见、定义得最清楚的团队。 因为管线只会忠实执行你给它的标准，而大多数团队的标准是一团浆糊。

eval 从来不是一个测量问题。它是这个行业在慢慢承认：总得有人来决定什么是好——而这，恰恰是最不可规模化的那件事。

延伸阅读

标签 evals AI 产品经理判断力科技评论

AI 行业集体转向 eval，却在回避那个真问题

把工程的壳剥掉，eval 到底是什么

「用大模型当裁判」只是把问题往后挪了一格

eval 热潮真正暴露的事

延伸阅读

讨论