2026-06-08

Die Branche schwört auf evals – und weicht dabei der eigentlichen Frage aus

2026 gehört das Bauen von Evaluierungssystemen – kurz: evals – zu den heißesten Engineering-Praktiken im AI-Umfeld.

Das Playbook ist mittlerweile ausgereift: Man sammelt echte Fehlschläge und baut daraus einen Goldstandard-Datensatz, trainiert einen vertrauenswürdigen Scorer, hängt einen „an menschliche Reviewer angeglichenen” LLM als Schiedsrichter dahinter und sichert das Ganze mit einem CI-Gate ab, das jede Qualitätsverschlechterung abblockt. Anthropic hat eigens Artikel veröffentlicht, die erklären, wie man evals richtig aufsetzt; Umfragen zufolge nennen 32 % der Teams schlechte Qualität als das größte Hindernis beim Ausrollen von AI-Produkten. Kurzzeitig wurde evals zum Synonym für Ingenieurdisziplin – die Methode, die AI endlich zuverlässig machen soll.

Das System funktioniert. Aber was ich beobachte: Die Branche verpackt gerade ein Organisationsproblem als Ingenieursproblem – und evals lösen das Organisationsproblem nicht.

Zieht man die Ingenieursschale ab, was bleibt?

Ein eval-System besteht, wenn man Datensatz, Scorer und CI weglässt, im Wesentlichen aus zwei Dingen: einer schriftlichen Definition dessen, was wir für gut halten und was wir unter keinen Umständen dulden – plus einem Mechanismus, der diese Definition durchsetzt.

Das Pipeline-Bauen und CI-Ausführen ist der leichte Teil – und der, der am schnellsten in Tools gegossen wurde. Schwer ist die erste Hälfte: Was gilt überhaupt als gut? Das ist keine Ingenieursfrage, sondern eine Urteilsfrage. Und Urteil ist genau das, was evals zu umgehen versuchen – und nicht umgehen können.

„LLM als Richter” verschiebt das Problem nur um eine Ebene

Der aktuelle Trend: Man nimmt einen LLM als Schiedsrichter und behauptet, er sei „an menschliche Reviewer angeglichen”. Klingt wissenschaftlich – fällt aber beim ersten Nachhaken auseinander: An welche Menschen? Wessen Geschmack?

Das Richtermodell erzeugt keinen Standard; es reproduziert den, mit dem man es gefüttert hat. Wessen Urteile im Goldstandard-Datensatz stecken, auf dem Niveau urteilt das eval. Das „Datensätze aus echten Fehlschlägen zusammenstellen” ist im Kern ein als Testdaten verkleidetes Wertedokument – es hält fest, was dieses Team nicht tolerieren kann.

Anders gesagt: evals verstärken den Geschmack, den du bereits hast, aber sie liefern dir keinen. Ein Team mit schwachem Urteilsvermögen, das sich eine glänzende eval-Pipeline gönnt, bekommt kein besseres Produkt – es bekommt Mittelmäßigkeit schneller und stabiler in Serie produziert.

Was der eval-Hype wirklich entlarvt

Das Narrativ „AI kann alles” versprach ursprünglich, die Person, die Qualität durchwinkt, überflüssig zu machen. Der eval-Boom ist die stille Rückkehr eben dieser Rolle – nur mit einem anderen, ingenieurstauglicheren Namen.

Der Subtext ist ungemütlich: AI hat die urteilsfähige Person nicht abgeschafft – sie hat sie zum Flaschenhals gemacht. Je billiger die Ausführung, desto knapper wird „definieren, was gut ist”. Wer gerade fieberhaft evals baut, räumt damit – verspätet – ein, dass dem so ist.

Meine Prognose für die nächste Phase: Gewinnen werden nicht die Teams mit der ausgefeiltesten eval-Pipeline, sondern die mit der klarsten und eigensinnigsten Vorstellung davon, was gut bedeutet. Denn die Pipeline exekutiert treu den Standard, den man ihr gibt – und bei den meisten Teams ist dieser Standard ein einziger Brei.

evals sind kein Messproblem. Sie sind das langsame Eingeständnis einer ganzen Branche: Irgendjemand muss entscheiden, was gut ist – und das ist genau das, was sich am wenigsten skalieren lässt.

Weiterführende Lektüre

Diskussion

Kein Login nötig, anonym möglich. Bleib freundlich.
Lädt…