Was ist eine Eval-Harness in der KI-Entwicklung?

Eine Eval-Harness ist ein deterministisches Test-Apparat für ein nicht-deterministisches System. Sie enthält ein fixes Fixture-Set (reale Traffic-Inputs gepaart mit erwarteten Outputs), geschriebene Rubriken (die Definition von 'gut' pro Fixture-Klasse) und einen Scoring-Lauf, der pro Metrik eine zwischen Releases vergleichbare Zahl liefert.

Wie viele Fixtures braucht eine Eval-Harness?

50 bis 200 Fixtures reichen zum Start, aus echtem Produktionsverkehr gesampelt und vor dem Labelling redaktiert. Unter 50 dominiert Varianz das Signal und das Gate triggert auf Rauschen. Über 200 fällt der marginale Wert ab, ausser Ihr Traffic-Mix ist ungewöhnlich vielfältig.

Was ist der Unterschied zwischen Eval-Harness und Unit-Test?

Ein Unit-Test prüft eine feste Bool-Assertion gegen eine deterministische Funktion. Eine Eval-Harness bewertet einen probabilistischen Output gegen eine Rubrik, die selbst probabilistisch sein kann (LLM-gegradet). Die Harness aggregiert viele solcher Scores zu Pro-Metrik-Mittelwerten und vergleicht diese gegen eine Baseline.

Wo sitzt die Eval-Harness in CI?

Als Pflicht-PR-Check. Jeder Release lässt die Harness gegen das aktuelle Fixture-Set laufen, vergleicht Pro-Metrik-Scores mit der gespeicherten Baseline und schlägt fehl, wenn eine Toleranz überschritten wird. Die Morvion Eval Spec liefert ein Referenz-Workflow auf github.com/aloalads/eval-spec.

Eval-Harness · Morvion Glossar

Eine Eval-Harness ist das Artefakt, das die Frage «fühlt sich diese KI besser an?» in eine Zahl verwandelt. Ein fester Fixture-Datensatz, eine geschriebene Definition von «gut» und ein Scoring-Lauf, der pro Metrik eine zwischen Releases vergleichbare Zahl liefert.

Die drei Teile.

Fixtures. 50–200 reale Traffic-Inputs gepaart mit erwarteter Ausgabe. Aus Logs gesampelt, redaktiert, beschriftet. Synthetische Fixtures lügen.
Rubriken. Die geschriebene Definition von «gut» pro Fixture-Klasse. Deterministisch wenn die Wahrheit strukturell ist (Schema, Field Match, verbotene Tokens), LLM-gegradet wenn die Wahrheit gefühlsbasiert ist (Tonalität, Faithfulness), menschlich gegradet für hochrisiko- Domänen.
Scoring. Der Runner, der Fixtures durch das System unter Test pumpt, jede zutreffende Rubrik anwendet, Pro- Metrik-Scores aggregiert und einen strukturierten Report ausgibt. Die CI-Version dieses Runners ist ein Regression Gate.

Warum eine Harness nicht optional ist.

KI-Outputs sind nicht-deterministisch. Ohne Harness regredieren Modellwechsel, Prompt-Änderungen und Retrieval- Refactors still. Die Harness ist das einzige Artefakt in einem KI-Projekt, das diese Änderungen unverändert überlebt, und die einzige objektive Antwort auf «ist das besser als letzte Woche?».

Zuerst bauen.

Der teuerste KI-Bug ist der, der ausgeliefert wird, weil niemand eine Regression bemerkt hat. Die Harness ist die billigste Position, wenn sie zuerst geschrieben wird, und die teuerste Auslassung, wenn sie nach dem Launch nachgereicht wird. Reihenfolge: Fixtures, dann Rubriken, dann der Agent.

Häufige Fragen.

Was ist eine Eval-Harness in der KI-Entwicklung?: Eine Eval-Harness ist ein deterministisches Test-Apparat für ein nicht-deterministisches System. Sie enthält ein fixes Fixture-Set (reale Traffic-Inputs gepaart mit erwarteten Outputs), geschriebene Rubriken (die Definition von 'gut' pro Fixture-Klasse) und einen Scoring-Lauf, der pro Metrik eine zwischen Releases vergleichbare Zahl liefert.
Wie viele Fixtures braucht eine Eval-Harness?: 50 bis 200 Fixtures reichen zum Start, aus echtem Produktionsverkehr gesampelt und vor dem Labelling redaktiert. Unter 50 dominiert Varianz das Signal und das Gate triggert auf Rauschen. Über 200 fällt der marginale Wert ab, ausser Ihr Traffic-Mix ist ungewöhnlich vielfältig.
Was ist der Unterschied zwischen Eval-Harness und Unit-Test?: Ein Unit-Test prüft eine feste Bool-Assertion gegen eine deterministische Funktion. Eine Eval-Harness bewertet einen probabilistischen Output gegen eine Rubrik, die selbst probabilistisch sein kann (LLM-gegradet). Die Harness aggregiert viele solcher Scores zu Pro-Metrik-Mittelwerten und vergleicht diese gegen eine Baseline.
Wo sitzt die Eval-Harness in CI?: Als Pflicht-PR-Check. Jeder Release lässt die Harness gegen das aktuelle Fixture-Set laufen, vergleicht Pro-Metrik-Scores mit der gespeicherten Baseline und schlägt fehl, wenn eine Toleranz überschritten wird. Die Morvion Eval Spec liefert ein Referenz-Workflow auf github.com/aloalads/eval-spec.

Englische Fassung: Eval-Harness on the EN edition.

Eval-Harness

Die drei Teile.

Warum eine Harness nicht optional ist.

Zuerst bauen.

Häufige Fragen.

Intelligente Systeme & KI-Infrastruktur

Weiter im Glossar.

KI-Infrastruktur

Regression Gate

RAG (Retrieval-Augmented Generation)

Model Context Protocol (MCP)

Agent Tool Use

LLM-Guardrails

Vektor-Index

Strukturierte Ausgabe

Prompt Injection

Observability-Traces

Agent-Handoff

Retrieval-Rerank

KI-Observability

Multi-Agent-Workflow

Embedding-Modell

Semantische Suche

Vektor-Datenbank

Fine-Tuning

Halluzination

Chain-of-Thought

Function Calling

Agentic Search

Embedding-Raum

Context-Window

Prompt Engineering

Vektor-Suche

Token-Budget

Semantischer Cache

Faithfulness

Cross-Encoder

Modell-Router

KI-Kostenkontrolle

Modell-Destillation

Safety-Rails

KI-Agent

CRM-Intelligenz

Document Intelligence

Eval-Driven KI

Discovery Sprint

Digital Operating Layer

Immersive Website

Hospitality-Website

Marktplatz-Plattform

Business Intelligence Dashboard

Echtzeit-Dashboard

Kunden-Portal

Agent-Memory

Strukturierte Extraktion

KI-Evaluations-Framework

Retrieval-Qualität

KI-Guardrail-Policy

Eval-Fixture

Eval-Rubrik

KI-Incident

Agent-Orchestrierung

Eval-Versionierung

Modell-Fallback

Fein-granulares Routing

KI-Policy-Versionskontrolle