← 全部標籤 · 共 1 篇
2026 年,給 AI 建「評估體系」成了顯學——金標準資料集、評分器、用大模型當裁判、CI 卡關,被當成一門讓 AI 變可靠的工程紀律來推。但剝開工程的殼,eval 的本質是「誰來定義好、誰來背鍋」,而這恰恰外包不掉。