← 전체 태그 · 총 1편
2026년, AI에 '평가 체계'를 구축하는 일이 대세가 됐다 — 황금 기준 데이터셋, 채점기, LLM 심판, CI 게이트. AI를 신뢰할 수 있게 만드는 공학적 규율로 포장됐지만, 껍데기를 벗기면 evals의 본질은 '누가 좋음을 정의하고, 누가 책임을 지는가'다. 그리고 그건 아웃소싱이 안 된다.