2026-06-19

16 erfahrene Programmierer coden mit KI — sie dachten, 20 % schneller, in Wahrheit 19 % langsamer

Ich fange mit der Zahl an, bei der es mir kalt den Rücken runterlief.

Das randomisierte kontrollierte Experiment von METR holte 16 erfahrene Open-Source-Programmierer mit vielen Jahren Erfahrung zusammen und ließ sie echte Aufgaben in ihren eigenen Projekten lösen — Projekten, die sie im Schnitt seit fünf Jahren pflegten. Die eine Hälfte nutzte KI-Werkzeuge, die andere nicht. Die Gruppe mit KI war 19 % langsamer. Dass es etwas langsamer ging, ist für sich genommen nicht überraschend. Das eigentliche Problem steckt in der anderen Hälfte: Diese Leute sagten vorher voraus, KI würde sie um 24 % beschleunigen — und nachdem sie fertig waren und am eigenen Leib erlebt hatten, dass es langsamer ging, glaubten sie immer noch, sie seien 20 % schneller gewesen. Gefühl und Realität klaffen fast 40 Prozentpunkte auseinander, und die Richtung stimmt nicht mal.

Ich habe danach lange darüber nachgedacht, warum Menschen so dermaßen danebenliegen — und das ausgerechnet bei der Arbeit, die sie am besten kennen.

Mein eigenes Gefühl beim Schreiben mit KI erklärt schon das meiste davon. Du tippst einen Satz, und ein ganzer Bildschirm voll Code erscheint — dieser eine Moment fühlt sich tatsächlich großartig an, die Finger haben kaum etwas getan, und im Kopf taucht der Gedanke auf: „So schnell schon da.” Aber das ist nur der Anfang der ganzen Sache. Danach musst du lesen, was sie geschrieben hat, beurteilen, ob es stimmt, es einmal laufen lassen — und dann merkst du, dass sie eine scheinbar plausible Logik besonders sauber und besonders überzeugend richtig aussehen lassen hat, und du brauchst nochmal zwanzig Minuten, um dieses „sieht richtig aus, ist es aber nicht” herauszufischen. Der gute Moment von vorhin wird als „schnell” abgespeichert; das Ringen über die folgenden zwanzig Minuten wird nicht als „Code schreiben” verbucht, sondern als „Debugging” oder „heute schlecht drauf”. Was die KI einspart, ist die körperliche Mühe des Tippens; was sie zusätzlich kostet, ist die geistige Mühe des Überprüfens — und Menschen sind empfindlich für ersparte Körperkraft, aber stumpf gegenüber zusätzlicher Kopfarbeit. Genau hier passen Gefühl und Stoppuhr nicht zusammen.

Es gibt noch eine Voraussetzung, die man leicht überspringt: Diese 16 Leute arbeiteten in Code, in dem sie seit fünf Jahren steckten. Genau das ist der Ort, an dem KI am wenigsten hilft — oder am ehesten zur Last wird. Denn du verstehst dieses System ohnehin besser als jedes Modell, und die Hälfte ihrer Vorschläge ist nichts anderes, als noch einmal zu raten, was du längst durchdacht hast, und dann musst du auch noch Zeit darauf verwenden zu bestätigen, dass sie nicht falsch geraten hat. In einem anderen Szenario kann die Schlussfolgerung sich umkehren: Lass mich an ein völlig fremdes Framework ran, lass mich einen Haufen Boilerplate-Code schreiben oder ein kleines Werkzeug von null aufsetzen — dann ist KI mit hoher Wahrscheinlichkeit wirklich schneller. Diese Studie sagt also nicht „KI ist nutzlos”, sie sagt: Ob KI schnell oder langsam ist, hängt extrem vom Szenario ab — und dein Gefühl kann überhaupt nicht unterscheiden, in welchem Szenario du gerade bist.

Warum mir das als Produktmensch besonders zu denken gibt. Weil unter fast jeder KI-bezogenen Entscheidung unserer Branche derzeit derselbe Satz liegt: Sie macht uns schneller. Soll man Budget aufstocken und Tools kaufen, soll man zwei Leute weniger einstellen, passt dieses Quartal noch ein Feature mehr rein, was antwortet man, wenn der Chef fragt „Wie viel schneller seid ihr durch KI” — all das hängt an diesem einen Satz. Auch die ganze KI-Entlassungswelle von 2026 wird nach außen über genau dieses Effizienz-Narrativ erzählt. Doch diese Studie sagt: Selbst die Leute, die mit eigenen Händen arbeiten, können nicht zuverlässig beurteilen, ob sie schneller waren oder nicht. Dann steht das Budget, der Zeitplan und die Entlassung, die auf diesem Urteil aufbauen, auf wackligem Fundament. Noch schlimmer: Es zu überprüfen ist besonders schwer, denn die erste Methode, die mir einfällt, ist, das Team zu fragen „Hat die KI geholfen?” — und das ist ausgerechnet die Datenquelle, der man am wenigsten trauen sollte.

Deshalb habe ich in diesem halben Jahr etwas ziemlich Konkretes getan: „Fühlt sich viel schneller an” aus meinen Belegen gestrichen. Sagt das nochmal jemand — mich selbst eingeschlossen —, hake ich zuerst nach: Woran kann man das sehen? Hat diese Iteration ein paar Tage weniger gekostet als die letzte, gibt es mehr oder weniger Bugs im Live-Betrieb, ist die Nacharbeit gestiegen, wie oft wurde der von der KI geschriebene Abschnitt später nochmal umgebaut. Gibt es Zahlen, glaube ich es; gibt es keine, behandle ich es als bloßes Gefühl und lege es mit einem Fragezeichen ab. Auch frage ich nicht mehr pauschal „Bringt KI was?”, sondern „Bei welchem Stück Arbeit bringt sie was?”. Autovervollständigung, fremde APIs nachschlagen, neue Projekte aufsetzen — höchstwahrscheinlich ja; an unserem eigenen, seit Jahren laufenden Altsystem arbeiten — da gehe ich standardmäßig davon aus, dass sie bremst, es sei denn, jemand legt mir ein Gegenbeispiel hin, das mich umstimmt.

Weiterführende Links

16 erfahrene Programmierer coden mit KI — sie dachten, 20 % schneller, in Wahrheit 19 % langsamer

Weiterführende Links

Diskussion