Eine Eval-Harness ist das Artefakt, das die Frage «fühlt sich diese KI besser an?» in eine Zahl verwandelt. Ein fester Fixture-Datensatz, eine geschriebene Definition von «gut» und ein Scoring-Lauf, der pro Metrik eine zwischen Releases vergleichbare Zahl liefert.

Die drei Teile.

  • Fixtures. 50–200 reale Traffic-Inputs gepaart mit erwarteter Ausgabe. Aus Logs gesampelt, redaktiert, beschriftet. Synthetische Fixtures lügen.
  • Rubriken. Die geschriebene Definition von «gut» pro Fixture-Klasse. Deterministisch wenn die Wahrheit strukturell ist (Schema, Field Match, verbotene Tokens), LLM-gegradet wenn die Wahrheit gefühlsbasiert ist (Tonalität, Faithfulness), menschlich gegradet für hochrisiko- Domänen.
  • Scoring. Der Runner, der Fixtures durch das System unter Test pumpt, jede zutreffende Rubrik anwendet, Pro- Metrik-Scores aggregiert und einen strukturierten Report ausgibt. Die CI-Version dieses Runners ist ein Regression Gate.

Warum eine Harness nicht optional ist.

KI-Outputs sind nicht-deterministisch. Ohne Harness regredieren Modellwechsel, Prompt-Änderungen und Retrieval- Refactors still. Die Harness ist das einzige Artefakt in einem KI-Projekt, das diese Änderungen unverändert überlebt, und die einzige objektive Antwort auf «ist das besser als letzte Woche?».

Zuerst bauen.

Der teuerste KI-Bug ist der, der ausgeliefert wird, weil niemand eine Regression bemerkt hat. Die Harness ist die billigste Position, wenn sie zuerst geschrieben wird, und die teuerste Auslassung, wenn sie nach dem Launch nachgereicht wird. Reihenfolge: Fixtures, dann Rubriken, dann der Agent.

Häufige Fragen.

Was ist eine Eval-Harness in der KI-Entwicklung?
Eine Eval-Harness ist ein deterministisches Test-Apparat für ein nicht-deterministisches System. Sie enthält ein fixes Fixture-Set (reale Traffic-Inputs gepaart mit erwarteten Outputs), geschriebene Rubriken (die Definition von 'gut' pro Fixture-Klasse) und einen Scoring-Lauf, der pro Metrik eine zwischen Releases vergleichbare Zahl liefert.
Wie viele Fixtures braucht eine Eval-Harness?
50 bis 200 Fixtures reichen zum Start, aus echtem Produktionsverkehr gesampelt und vor dem Labelling redaktiert. Unter 50 dominiert Varianz das Signal und das Gate triggert auf Rauschen. Über 200 fällt der marginale Wert ab, ausser Ihr Traffic-Mix ist ungewöhnlich vielfältig.
Was ist der Unterschied zwischen Eval-Harness und Unit-Test?
Ein Unit-Test prüft eine feste Bool-Assertion gegen eine deterministische Funktion. Eine Eval-Harness bewertet einen probabilistischen Output gegen eine Rubrik, die selbst probabilistisch sein kann (LLM-gegradet). Die Harness aggregiert viele solcher Scores zu Pro-Metrik-Mittelwerten und vergleicht diese gegen eine Baseline.
Wo sitzt die Eval-Harness in CI?
Als Pflicht-PR-Check. Jeder Release lässt die Harness gegen das aktuelle Fixture-Set laufen, vergleicht Pro-Metrik-Scores mit der gespeicherten Baseline und schlägt fehl, wenn eine Toleranz überschritten wird. Die Morvion Eval Spec liefert ein Referenz-Workflow auf github.com/aloalads/eval-spec.

Englische Fassung: Eval-Harness on the EN edition.