Was ist eine Eval-Fixture?

Eine Eval-Fixture ist ein Input-und-erwartete-Form-Paar in einer Evaluations-Harness — ein realer oder repräsentativer Beispiel zusammen mit der gelabelten Antwort oder dem Rubrik-Outcome, den der KI-Workflow produzieren soll. Das Fixture-Set ist die Sammlung von Fixtures, die die Harness auf jedem Release fährt.

Wie viele Fixtures brauchen wir?

50 bis 200 zum Start, wachsend auf ein paar hundert, während der Workflow reift. Qualität schlägt Quantität — ein enges 80-Fixture-Set, aus echtem Produktions-Traffic gesampelt, schlägt ein 2000-Fixture synthetisches Datensatz. Jeder geshippte Bug sollte eine Fixture fürs nächste Release werden.

Was ist der Unterschied zwischen einer Fixture und einem Unit-Test?

Ein Unit-Test asserted deterministisches Verhalten. Eine Fixture wird gegen eine Rubrik gegradet (entweder deterministisch oder LLM-gegradet), weil der KI-Output nicht immer exakt ist. Die Form ist ähnlich — Input plus erwartetes Outcome — aber die Assertion ist ein Score gegen eine Rubrik statt Gleichheit gegen einen String.

Eval-Fixture · Morvion Glossar

Eine Eval-Fixture ist das Unit-Primitiv einer Eval-Harness: ein Input plus die gelabelte Antwort oder das Rubrik- Outcome, den der KI-Workflow produzieren soll. Das Fixture-Set ist die Sammlung von Fixtures, die die Harness auf jedem Release fährt. Fixtures sind das nächste, was KI-Engineering zu Integrationstests hat.

Die Form einer Fixture.

Input. Der tatsächliche Prompt, das Dokument, die Anfrage oder das Event, das das System in Produktion sehen würde. Wörtlich, nicht paraphrasiert.
Erwarteter Output. Entweder die exakte Antwort (deterministische Fixtures) oder die Rubrik-Kriterien, die die Antwort erfüllen muss (LLM-gegradete Fixtures).
Metadaten. Source (Produktions-Sample, manuell, synthetisch), Datum hinzugefügt, Owner, Tags. Hilft, Scores nach Anfrage-Klasse später zu slicen.

Wo Fixtures herkommen.

Die stärksten Fixtures sind echte Produktions-Samples — tatsächliche Anfragen, die Kunden gestellt haben, tatsächliche Dokumente, die das System sah — gelabelt von einem Domänen-Experten. Synthetische Fixtures füllen Lücken (seltene Fälle, adversariale Inputs), sollten aber nie das Set dominieren. Eine Harness, bei der die meisten Fixtures synthetisch sind, endet damit, den Agenten für imaginierte Anfragen statt echte zu optimieren.

«Wenn Sie kein Fixture-Set schreiben können, verstehen Sie den Workflow noch nicht.»

Wie viele Fixtures.

50 bis 200 zum Start, wachsend auf ein paar hundert, während der Workflow reift. Qualität schlägt Quantität bei Weitem — ein enges 80-Fixture-Set, aus echtem Traffic gesampelt, schlägt ein 2000-Fixture synthetisches Datensatz jedes Mal. Das Fixture-Set ist auch, wo Regressionen am schnellsten gefangen werden: jeder geshippte Bug wird eine Fixture für das nächste Release.

Häufige Fragen.

Was ist eine Eval-Fixture?: Eine Eval-Fixture ist ein Input-und-erwartete-Form-Paar in einer Evaluations-Harness — ein realer oder repräsentativer Beispiel zusammen mit der gelabelten Antwort oder dem Rubrik-Outcome, den der KI-Workflow produzieren soll. Das Fixture-Set ist die Sammlung von Fixtures, die die Harness auf jedem Release fährt.
Wie viele Fixtures brauchen wir?: 50 bis 200 zum Start, wachsend auf ein paar hundert, während der Workflow reift. Qualität schlägt Quantität — ein enges 80-Fixture-Set, aus echtem Produktions-Traffic gesampelt, schlägt ein 2000-Fixture synthetisches Datensatz. Jeder geshippte Bug sollte eine Fixture fürs nächste Release werden.
Wo sollten Fixtures herkommen?: Hauptsächlich aus echtem Produktions-Traffic, gelabelt von einem Domänen-Experten. Synthetische Fixtures füllen Lücken (seltene Fälle, adversariale Inputs), sollten aber nie das Set dominieren. Eine Harness, hauptsächlich aus synthetischen Fixtures populiert, endet damit, den Agenten für imaginierte Anfragen zu optimieren.
Was ist der Unterschied zwischen einer Fixture und einem Unit-Test?: Ein Unit-Test asserted deterministisches Verhalten. Eine Fixture wird gegen eine Rubrik gegradet (entweder deterministisch oder LLM-gegradet), weil der KI-Output nicht immer exakt ist. Die Form ist ähnlich — Input plus erwartetes Outcome — aber die Assertion ist ein Score gegen eine Rubrik statt Gleichheit gegen einen String.

Englische Fassung: Eval-Fixture on the EN edition.

Eval-Fixture

Die Form einer Fixture.

Wo Fixtures herkommen.

Wie viele Fixtures.

Häufige Fragen.

Die Morvion Eval-Spec

Weiter im Glossar.

KI-Infrastruktur

Eval-Harness

Regression Gate

RAG (Retrieval-Augmented Generation)

Model Context Protocol (MCP)

Agent Tool Use

LLM-Guardrails

Vektor-Index

Strukturierte Ausgabe

Prompt Injection

Observability-Traces

Agent-Handoff

Retrieval-Rerank

KI-Observability

Multi-Agent-Workflow

Embedding-Modell

Semantische Suche

Vektor-Datenbank

Fine-Tuning

Halluzination

Chain-of-Thought

Function Calling

Agentic Search

Embedding-Raum

Context-Window

Prompt Engineering

Vektor-Suche

Token-Budget

Semantischer Cache

Faithfulness

Cross-Encoder

Modell-Router

KI-Kostenkontrolle

Modell-Destillation

Safety-Rails

KI-Agent

CRM-Intelligenz

Document Intelligence

Eval-Driven KI

Discovery Sprint

Digital Operating Layer

Immersive Website

Hospitality-Website

Marktplatz-Plattform

Business Intelligence Dashboard

Echtzeit-Dashboard

Kunden-Portal

Agent-Memory

Strukturierte Extraktion

KI-Evaluations-Framework

Retrieval-Qualität

KI-Guardrail-Policy

Eval-Rubrik

KI-Incident

Agent-Orchestrierung

Eval-Versionierung

Modell-Fallback

Fein-granulares Routing

KI-Policy-Versionskontrolle