2026-06-08

AI 行業集體轉向 eval,卻在回避那個真問題

2026 年,AI 圈最熱的工程實踐之一,是給模型和 agent 建「評估體系」(evals)。

打法已經相當成熟:從真實失敗案例裡攢一個金標準資料集,訓練一個你信得過的評分器,再用一個「對齊過人類評審」的大模型當裁判,最後用一道 CI 關卡,擋住每一次品質退步。Anthropic 專門寫文章教大家怎麼做 eval;有調研說 32% 的團隊認為擋住 AI 產品上線的頭號障礙就是品質。一時間,eval 被當成一門讓 AI 變可靠的工程紀律在推。

這套東西確實有用。但我的觀察是:大家正在把一個組織問題,包裝成工程問題來解決——而那個組織問題,eval 解決不了。

把工程的殼剝掉,eval 到底是什麼

一套 eval 體系,去掉「資料集 / 評分器 / CI」這些工程外殼,本質上只有兩樣東西:一份「我們認為什麼算好、什麼絕不能忍」的書面定義,加一個執行它的機制。

搭管線、跑 CI 這部分是容易的,也最快被工具化。難的是前半句——到底什麼算好? 這不是工程問題,是判斷問題。而判斷,恰恰是 eval 想繞、卻繞不過去的地方。

「用大模型當裁判」只是把問題往後挪了一格

現在流行用一個 LLM 當裁判,並聲稱它「對齊了人類評審」。聽著很科學,但追問一句就露餡:對齊了哪些人類?誰的品味?

裁判模型不產生標準,它只複製你餵給它的標準。你的金標準資料集裡藏著誰的判斷,你的 eval 就只有那個水準的判斷。所謂「從真實失敗裡攢資料集」,本質是一份偽裝成測試資料的價值觀文件——它記錄的是「我們這個團隊不能容忍什麼」。

換句話說:eval 放大你已有的品味,但給不了你品味。 一個判斷力稀爛、卻配了套漂亮 eval 管線的團隊,得到的不是好產品,是「更快、更穩定地批量產出平庸」。

eval 熱潮真正暴露的事

「AI 什麼都能做」這套敘事,本來許諾要溶解掉那個把關品質的人。而 eval 熱潮,是整個行業在悄悄把這個角色重新請回來——只不過給它換了個工程化的名字。

潛台詞不太好聽:AI 沒有消滅那個有判斷力的人,它把這個人變成了瓶頸。 執行越便宜,「定義什麼是好」就越稀缺。大家忙著建 eval,其實是在遲來地承認這件事。

所以我對接下來的判斷是:贏家不會是 eval 管線最花俏的團隊,而是對「好」最有主見、定義得最清楚的團隊。 因為管線只會忠實執行你給它的標準,而大多數團隊的標準是一團漿糊。

eval 從來不是一個測量問題。它是這個行業在慢慢承認:總得有人來決定什麼是好——而這,恰恰是最不可規模化的那件事。

延伸閱讀

討論

無需登入,匿名即可發言,請友善。
載入中…