KI-Coding ist nicht zu teuer – es hat nur niemand gemessen, was es bringt
Die zwei spektakulärsten Nachrichten aus der Unternehmens-KI-Welt der letzten Wochen: Microsoft will Claude Code intern in der Sparte Experiences + Devices abschalten und tausende Ingenieure zurück zu GitHub Copilot drängen. Uber hat sein gesamtes KI-Coding-Budget für 2026 in gerade mal vier Monaten verbrannt.
Die öffentliche Deutung ist nahezu einstimmig: KI-Coding ist zu teuer, die Blase platzt. Token-Rechnungen von 500 bis 2.000 Dollar pro Monat für Vielnutzer – das klingt absurd.
Aber diese Lesart greift daneben. Was hier abgerechnet wird, ist nicht „KI ist zu teuer”. Es ist etwas Peinlicheres: Nahezu niemand hat je gemessen, was dieses Geld eigentlich zurückbringt.
Ein Detail, das alles verrät
Im Vorgehen von Uber steckt der aufschlussreichste Hinweis: Das Unternehmen richtete intern eine Rangliste ein, die Teams nach ihrem KI-Tool-Verbrauch sortiert. Bis März galten 84 % der 5.000 Ingenieure als „agentic coding-Nutzer”.
Man sollte kurz innehalten und fragen, was diese Rangliste eigentlich belohnte – sie belohnte token verbrennen, nicht Wertschöpfung. Wer „viel nutzen” zum Statussymbol macht, das man voreinander vorzeigen kann, darf sich nicht wundern, wenn alle wie verrückt nutzen. Das Budget war nicht schlagartig weg – es war die zwangsläufige Konsequenz dieses Anreizdesigns.
Als die Rechnung kam, sah die Finanzabteilung eine auf den Dollar genaue Kostenzahl und einen Nutzen, den niemand in Zahlen fassen konnte. Ubers eigener COO hat das offen zugegeben: Die Verbindung zwischen Ausgaben und gelieferten Features sei noch nicht gezogen – „es ist schwer zu sagen, ob wir jetzt 25 % mehr nützliche Features liefern”.
Das ist kein Versagen der KI. Das ist ein Versagen der Messung.
Mit „fühlt sich schneller an” gewinnt man keine Budgetrunde
Das eigentliche Paradox liegt hier: Dieselben Unternehmen, die für ihre KI-Produkte fieberhaft Evaluierungssysteme bauen, Gold-Standard-Datensätze fordern und jede Qualitätsnuance quantifizieren wollen – diese selben Unternehmen behandeln „Produktivitätssteigerung” bei ihren KI-Tools als selbstverständliche, nie hinterfragte Annahme.
„Schneller” gilt als axiomatisch wahr. Niemand verknüpft agent-Arbeitsstunden mit tatsächlich gelieferten, tatsächlich wertvollen Ergebnissen. Das Resultat: Wenn der CFO mit der Rechnung in der Hand fragt „Was haben uns diese fünf Millionen gebracht?”, antwortet das Engineering-Team „Fühlt sich deutlich schneller an” – und „fühlt sich an” ist im Budgetgespräch ungefähr null wert.
Was diese Abrechnung wirklich abrechnet
Es rechnet nicht mit KI-Coding ab. Es rechnet mit einer Adoptionsweise ab, die KI als Performance inszeniert statt als Hebel.
Tools ausrollen, eine Verbrauchsrangliste aufhängen, 84 % Durchdringung feiern – das sieht nach Adoption aus, ist aber keine Strategie. Eine echte Strategie beginnt mit der Frage: Was soll dieser Hebel konkret bewegen? Und kann ich dieses „Was” messen und an Wert koppeln?
Meine These: Die Teams, die das überstehen, sind nicht die, die am härtesten kürzen und am sparsamsten einsetzen. Es sind die einzigen, die token-Ausgaben mit geliefertem Wert verbinden können – und das selbstbewusst vor dem CFO vertreten. Diese Kostenkorrektur wird sauber trennen, wer KI als Hebel nutzt, von wem, der KI als Inszenierung betreibt.
Und ein ungemütlicher Nachsatz: Wer in diesem Jahr immer nur „Nutzungsvolumen” gemessen hat, hat dieses Argument bereits verloren – denn er hat die gesamte Organisation trainiert, dieses Dashboard zu optimieren, statt Wert zu optimieren.
Diskussion