2026-06-08

AI 行業集體轉向 eval，卻在回避那個真問題

2026 年，AI 圈最熱的工程實踐之一，是給模型和 agent 建「評估體系」（evals）。

打法已經相當成熟：從真實失敗案例裡攢一個金標準資料集，訓練一個你信得過的評分器，再用一個「對齊過人類評審」的大模型當裁判，最後用一道 CI 關卡，擋住每一次品質退步。Anthropic 專門寫文章教大家怎麼做 eval；有調研說 32% 的團隊認為擋住 AI 產品上線的頭號障礙就是品質。一時間，eval 被當成一門讓 AI 變可靠的工程紀律在推。

這套東西確實有用。但我的觀察是：大家正在把一個組織問題，包裝成工程問題來解決——而那個組織問題，eval 解決不了。

把工程的殼剝掉，eval 到底是什麼

一套 eval 體系，去掉「資料集 / 評分器 / CI」這些工程外殼，本質上只有兩樣東西：一份「我們認為什麼算好、什麼絕不能忍」的書面定義，加一個執行它的機制。

搭管線、跑 CI 這部分是容易的，也最快被工具化。難的是前半句——到底什麼算好？ 這不是工程問題，是判斷問題。而判斷，恰恰是 eval 想繞、卻繞不過去的地方。

「用大模型當裁判」只是把問題往後挪了一格

現在流行用一個 LLM 當裁判，並聲稱它「對齊了人類評審」。聽著很科學，但追問一句就露餡：對齊了哪些人類？誰的品味？

裁判模型不產生標準，它只複製你餵給它的標準。你的金標準資料集裡藏著誰的判斷，你的 eval 就只有那個水準的判斷。所謂「從真實失敗裡攢資料集」，本質是一份偽裝成測試資料的價值觀文件——它記錄的是「我們這個團隊不能容忍什麼」。

換句話說：eval 放大你已有的品味，但給不了你品味。 一個判斷力稀爛、卻配了套漂亮 eval 管線的團隊，得到的不是好產品，是「更快、更穩定地批量產出平庸」。

eval 熱潮真正暴露的事

「AI 什麼都能做」這套敘事，本來許諾要溶解掉那個把關品質的人。而 eval 熱潮，是整個行業在悄悄把這個角色重新請回來——只不過給它換了個工程化的名字。

潛台詞不太好聽：AI 沒有消滅那個有判斷力的人，它把這個人變成了瓶頸。 執行越便宜，「定義什麼是好」就越稀缺。大家忙著建 eval，其實是在遲來地承認這件事。

所以我對接下來的判斷是：贏家不會是 eval 管線最花俏的團隊，而是對「好」最有主見、定義得最清楚的團隊。 因為管線只會忠實執行你給它的標準，而大多數團隊的標準是一團漿糊。

eval 從來不是一個測量問題。它是這個行業在慢慢承認：總得有人來決定什麼是好——而這，恰恰是最不可規模化的那件事。

延伸閱讀

標籤 evals AI 產品經理判斷力科技評論

AI 行業集體轉向 eval，卻在回避那個真問題

把工程的殼剝掉，eval 到底是什麼

「用大模型當裁判」只是把問題往後挪了一格

eval 熱潮真正暴露的事

延伸閱讀

討論