Eine Eval-Fixture ist das Unit-Primitiv einer Eval-Harness: ein Input plus die gelabelte Antwort oder das Rubrik- Outcome, den der KI-Workflow produzieren soll. Das Fixture-Set ist die Sammlung von Fixtures, die die Harness auf jedem Release fährt. Fixtures sind das nächste, was KI-Engineering zu Integrationstests hat.

Die Form einer Fixture.

  • Input. Der tatsächliche Prompt, das Dokument, die Anfrage oder das Event, das das System in Produktion sehen würde. Wörtlich, nicht paraphrasiert.
  • Erwarteter Output. Entweder die exakte Antwort (deterministische Fixtures) oder die Rubrik-Kriterien, die die Antwort erfüllen muss (LLM-gegradete Fixtures).
  • Metadaten. Source (Produktions-Sample, manuell, synthetisch), Datum hinzugefügt, Owner, Tags. Hilft, Scores nach Anfrage-Klasse später zu slicen.

Wo Fixtures herkommen.

Die stärksten Fixtures sind echte Produktions-Samples — tatsächliche Anfragen, die Kunden gestellt haben, tatsächliche Dokumente, die das System sah — gelabelt von einem Domänen-Experten. Synthetische Fixtures füllen Lücken (seltene Fälle, adversariale Inputs), sollten aber nie das Set dominieren. Eine Harness, bei der die meisten Fixtures synthetisch sind, endet damit, den Agenten für imaginierte Anfragen statt echte zu optimieren.

«Wenn Sie kein Fixture-Set schreiben können, verstehen Sie den Workflow noch nicht.»

Wie viele Fixtures.

50 bis 200 zum Start, wachsend auf ein paar hundert, während der Workflow reift. Qualität schlägt Quantität bei Weitem — ein enges 80-Fixture-Set, aus echtem Traffic gesampelt, schlägt ein 2000-Fixture synthetisches Datensatz jedes Mal. Das Fixture-Set ist auch, wo Regressionen am schnellsten gefangen werden: jeder geshippte Bug wird eine Fixture für das nächste Release.

Häufige Fragen.

Was ist eine Eval-Fixture?
Eine Eval-Fixture ist ein Input-und-erwartete-Form-Paar in einer Evaluations-Harness — ein realer oder repräsentativer Beispiel zusammen mit der gelabelten Antwort oder dem Rubrik-Outcome, den der KI-Workflow produzieren soll. Das Fixture-Set ist die Sammlung von Fixtures, die die Harness auf jedem Release fährt.
Wie viele Fixtures brauchen wir?
50 bis 200 zum Start, wachsend auf ein paar hundert, während der Workflow reift. Qualität schlägt Quantität — ein enges 80-Fixture-Set, aus echtem Produktions-Traffic gesampelt, schlägt ein 2000-Fixture synthetisches Datensatz. Jeder geshippte Bug sollte eine Fixture fürs nächste Release werden.
Wo sollten Fixtures herkommen?
Hauptsächlich aus echtem Produktions-Traffic, gelabelt von einem Domänen-Experten. Synthetische Fixtures füllen Lücken (seltene Fälle, adversariale Inputs), sollten aber nie das Set dominieren. Eine Harness, hauptsächlich aus synthetischen Fixtures populiert, endet damit, den Agenten für imaginierte Anfragen zu optimieren.
Was ist der Unterschied zwischen einer Fixture und einem Unit-Test?
Ein Unit-Test asserted deterministisches Verhalten. Eine Fixture wird gegen eine Rubrik gegradet (entweder deterministisch oder LLM-gegradet), weil der KI-Output nicht immer exakt ist. Die Form ist ähnlich — Input plus erwartetes Outcome — aber die Assertion ist ein Score gegen eine Rubrik statt Gleichheit gegen einen String.

Englische Fassung: Eval-Fixture on the EN edition.