TAG · 標籤

# evals

AI 行業集體轉向 eval，卻在回避那個真問題

2026 年，給 AI 建「評估體系」成了顯學——金標準資料集、評分器、用大模型當裁判、CI 卡關，被當成一門讓 AI 變可靠的工程紀律來推。但剝開工程的殼，eval 的本質是「誰來定義好、誰來背鍋」，而這恰恰外包不掉。