AI 업계가 eval로 몰려가면서 정작 진짜 질문은 피하고 있다
2026년, AI 업계에서 가장 뜨거운 엔지니어링 실천 중 하나는 모델과 agent에 ‘평가 체계(evals)‘를 구축하는 것이다.
방식은 이미 꽤 정형화됐다. 실제 실패 사례에서 황금 기준 데이터셋을 쌓고, 신뢰할 수 있는 채점기를 훈련시키고, ‘인간 심사위원과 얼라인된’ LLM을 심판으로 세우고, CI 게이트 하나로 매번 품질 퇴보를 막는다. Anthropic은 eval 구축법을 전문으로 다룬 글까지 냈고, 어느 조사에서는 AI 제품 출시를 막는 최대 장벽이 품질이라고 32%의 팀이 답했다. 순식간에 eval은 AI를 신뢰 가능하게 만드는 공학적 규율처럼 팔리기 시작했다.
이 체계가 실제로 쓸모 있다는 건 부정하지 않는다. 그러나 내 관찰은 이렇다. 업계는 지금 조직 문제를 공학 문제로 포장해 해결하려 한다 — 그리고 그 조직 문제는 eval로 해결이 안 된다.
공학의 껍데기를 벗기면, eval은 무엇인가
eval 체계에서 ‘데이터셋 / 채점기 / CI’ 같은 공학적 외피를 걷어내면, 본질적으로 두 가지만 남는다. ‘우리가 좋다고 보는 것, 절대 용납 못 하는 것’의 서면 정의, 그리고 그것을 집행하는 메커니즘.
파이프라인을 구성하고 CI를 돌리는 부분은 어렵지 않다. 도구화도 빠르게 이뤄졌다. 어려운 건 앞 절반이다 — 대체 무엇이 좋은 것인가? 이건 공학 문제가 아니라 판단 문제다. 그리고 판단은 정확히 eval이 우회하려 하지만 우회할 수 없는 지점이다.
”LLM을 심판으로 쓴다”는 건 문제를 한 칸 뒤로 민 것에 불과하다
요즘 대세는 LLM 하나를 심판으로 세우고 “인간 심사위원과 얼라인됐다”고 선언하는 방식이다. 과학적으로 들리지만, 한 번만 파고들면 바로 드러난다. 어떤 인간들과 얼라인됐다는 건가? 누구의 취향인가?
심판 모델은 기준을 생성하지 않는다. 당신이 먹인 기준을 그대로 복사할 뿐이다. 황금 기준 데이터셋 안에 누구의 판단이 숨어 있느냐가 곧 eval의 판단 수준을 결정한다. 소위 ‘실제 실패에서 데이터셋을 쌓는다’는 행위는 본질적으로 테스트 데이터로 위장한 가치관 문서다 — 그 팀이 무엇을 용납할 수 없는지를 기록한 문서.
달리 말하면: eval은 이미 가진 취향을 증폭하지, 취향을 만들어주지 않는다. 판단력이 형편없는 팀이 멋진 eval 파이프라인을 갖추면 좋은 제품이 나오는 게 아니다. ‘더 빠르고, 더 안정적으로 평범함을 대량 생산’하는 결과가 나온다.
eval 열풍이 실제로 폭로하는 것
“AI는 뭐든 할 수 있다”는 내러티브는 원래 품질을 관리하는 사람을 없애겠다고 약속했다. 그런데 eval 열풍은 업계 전체가 조용히 그 역할을 다시 불러들이는 과정이다 — 다만 공학적인 이름표를 달아서.
함의는 그리 듣기 좋지 않다. AI는 판단력 있는 인간을 제거한 게 아니라, 그 인간을 병목으로 만들었다. 실행이 저렴해질수록, ‘무엇이 좋은지를 정의하는 일’은 더 희소해진다. 모두가 evals를 구축하느라 바쁜 건 사실, 이 사실을 뒤늦게 인정하는 과정이다.
그래서 나의 예측은 이렇다. 승자는 eval 파이프라인이 가장 화려한 팀이 아니라, ‘좋음’에 대해 가장 뚜렷한 주견을 갖고 가장 명확하게 정의한 팀이다. 파이프라인은 당신이 준 기준을 충실히 실행할 뿐이고, 대부분의 팀은 그 기준 자체가 뒤죽박죽이다.
eval은 처음부터 측정 문제가 아니었다. 업계가 서서히 인정하는 것 — 누군가는 결국 ‘무엇이 좋은지’를 결정해야 한다 — 그것이야말로 가장 확장 불가능한 일이라는 사실이다.
토론