AI 코딩이 비싼 게 아니라, 아무도 그 가치를 측정하지 않았던 것이다
지난 2주 동안 엔터프라이즈 AI 업계에서 가장 눈에 띄는 두 가지 뉴스가 나왔다. 마이크로소프트는 Experiences + Devices 부서 내부에서 Claude Code를 퇴출하고 수천 명의 엔지니어를 GitHub Copilot으로 되돌렸다. Uber는 네 달 만에 2026년 전체 AI 코딩 도구 예산을 다 써버렸다.
여론의 해석은 거의 일방적이었다. AI 코딩이 너무 비싸고, 거품이 꺼지려 한다는 것. 헤비 유저의 월 500달러에서 2000달러에 달하는 token 청구서는 확실히 놀랍다.
하지만 나는 이 해석이 빗나갔다고 본다. 진짜 청산 대상은 ‘AI가 너무 비싸다’는 게 아니라, 훨씬 더 민망한 다른 사실이다. 거의 아무도 그 돈이 무엇을 돌려줬는지 측정하지 않았다.
모든 것을 드러내는 한 가지 디테일
Uber의 접근 방식 안에 가장 문제를 잘 보여주는 대목이 있다. 그들은 내부적으로 AI 도구 사용량을 기준으로 팀을 줄 세우는 리더보드를 운영했다. 3월에는 5000명의 엔지니어 중 84%가 ‘agentic coding 사용자’로 분류됐다.
잠깐 멈춰서 생각해보자. 이 리더보드가 보상하는 게 뭔가. 바로 token 소각이다. 가치 창출이 아니라. ‘많이 쓴다’는 걸 자랑거리로 만들어버리면, 당연히 모두가 사용량을 극대화하려 한다. 예산이 소진된 건 사고가 아니라, 이 인센티브 구조의 필연적 결과였다.
청구서가 날아왔을 때, 재무팀이 볼 수 있는 건 달러 단위로 정확한 비용 수치와 아무리 해도 설명할 수 없는 수익이었다. Uber의 COO 스스로 솔직하게 인정했다. 쓴 돈과 만들어낸 기능 사이에 “그 선이 아직 이어지지 않는다……우리가 지금 25% 더 유용한 기능을 만들고 있다고 말하기 어렵다”고.
이건 AI의 실패가 아니다. 측정의 실패다.
”더 빠른 것 같다”는 느낌으로는 예산 전쟁에서 이길 수 없다
가장 아이러니한 지점이 여기 있다. 바로 이 회사들이 자신들의 AI 제품에는 미친 듯이 평가 체계를 만들고, 황금 기준 데이터셋을 요구하고, 품질의 모든 측면을 수치화하려 한다. 그런데 자기들이 쓰는 AI 도구에 대해서는 ‘생산성 향상’이 검증된 적 없는, 그냥 당연히 성립하는 가정이 되어버렸다.
‘더 빠르다’는 게 자명한 사실로 받아들여졌다. 아무도 agent의 작업 시간을 실제 납품물, 실제 가치 있는 산출물과 연결하지 않았다. 결과는? CFO가 청구서를 들고 “이 500만 달러로 뭘 샀냐”고 물으면, 엔지니어링 팀은 “많이 빨라진 것 같습니다”밖에 답하지 못한다. 예산 회의에서 ‘느낌’은 0에 가깝다.
그렇다면 이번 청산은 무엇을 청산한 것인가
AI 코딩을 청산한 게 아니다. AI를 지렛대가 아닌 퍼포먼스로 도입한 방식을 청산한 것이다.
도구를 깔고, 사용량 리더보드를 올리고, 84% 침투율을 자랑하는 것. 이건 ‘도입’의 모양새지, ‘전략’이 아니다. 진짜 전략은 처음부터 명확히 하는 것이다. 이 도구가 무엇을 레버리지 할 것인지, 그리고 그 ‘무엇’을 측정하고 가치에 연결할 수 있는지.
내 판단은 이렇다. 앞으로 살아남는 팀은 AI 도구를 가장 많이 잘라낸 팀도, 가장 아끼며 쓰는 팀도 아닐 것이다. token 지출을 납품된 가치와 연결하고, 그 연결선을 가지고 CFO 앞에서 당당히 주장할 수 있는 유일한 팀이 살아남는다. 이번 비용 역풍은 ‘AI를 지렛대로 쓰는’ 팀과 ‘AI를 쇼로 쓰는’ 팀을 깔끔하게 갈라낼 것이다.
듣기 불편한 말도 하나 더 하겠다. 만약 당신이 올 한 해 내내 측정한 게 ‘사용량’이었다면, 사실 이미 이 싸움에서 진 것이다. 당신은 조직 전체가 그 계기판을 최적화하도록 훈련시켰지, 가치를 최적화하도록 훈련시킨 게 아니기 때문이다.
토론