Was ist eine KI-Eval-Harness?

Eine KI-Eval-Harness ist eine wiederholbare Test-Suite für ein KI-System. Sie fährt ein fixes Set Inputs durch die aktuelle Modell- und Prompt-Pipeline, scored jeden Output gegen eine geschriebene Rubrik und produziert Metriken, die über Releases verglichen werden können. Es ist das KI-Äquivalent eines Integrationstests, adaptiert auf nicht-deterministische Outputs.

Warum die Eval vor dem Agenten bauen?

Weil, wenn die Eval als Zweites gebaut wird, sie um das geformt wird, was der aktuelle Agent zufällig gut macht. Die Harness wird zur Schmeichlerin. Als Erstes gebaut hat der Agent ein Ziel zu optimieren statt eines Vibes zu jagen.

Wie viele Fixtures brauchen Sie zum Start?

50 bis 200 Beispiele reichen zum Start, aus echtem Traffic gesourced statt aus imaginierten Personas. Wenn Sie kein Fixture-Set produzieren können, verstehen Sie das Problem noch nicht, und jedes KI-System, das Sie bauen, wird diese Lücke reflektieren.

Eval-Driven KI · Morvion Glossar

Eval-Driven KI ist eine Entwicklungs-Disziplin, die die Evaluations-Harness vor dem Agenten schreibt, jeden Output gegen eine versionierte Rubrik scored und nur shippt, wenn die Metriken grün sind. Es ist das KI-Äquivalent dazu, Integrationstests vor einem Feature zu schreiben — adaptiert auf Outputs, die nicht binär sind.

Die drei Schichten einer Eval-Harness.

Fixtures. Ein kuratierter Datensatz realer Inputs, gelabelt mit dem, was ein guter Output aussieht. 50 bis 200 Beispiele zum Start, aus echtem Traffic gesourced.
Rubrik. Die geschriebene Definition von «gut» für jede Input-Klasse. Manchmal deterministisch, manchmal LLM-gegradet, gelegentlich human-gegradet. Versioniert neben den Prompts.
Regressions-Suite. Eine Baseline-Zahl für jede Metrik, auf jedem Release gespeichert. Neue Releases shippen nur, wenn keine Metrik past einer definierten Toleranz regressiert.

Warum Eval-Driven KI die einzige KI ist, die shippt.

Ohne Evals regressieren KI-Projekte still. Ein Modell-Swap, eine Prompt-Änderung, ein Retrieval-Refactor — all das kann Qualität auf Weisen degradieren, die niemand bemerkt, bis ein Kunde sich beschwert. Die Eval-Harness ist das Einzige im Projekt, das diese Änderungen unverändert überlebt, und die einzige objektive Antwort auf «ist das besser als letzte Woche?»

«Ein KI-System ohne Evals ist ein Vibe. Ein Vibe ist kein Produkt.»

Die Feldregel.

Wenn der Engineering-Lead Ihnen das Eval-Script und das Scoreboard vom letzten Release nicht zeigen kann, ist das fragliche KI-System nicht shippbar. Es läuft nur. Jedes Morvion-KI-Engagement startet hier — bevor irgendein Prompt oder Retrieval-Pipeline geschrieben wird.

Häufige Fragen.

Was ist Eval-Driven KI?: Eval-Driven KI ist eine Entwicklungs-Disziplin, die die Evaluations-Harness vor dem Agenten schreibt, jeden Output gegen eine versionierte Rubrik scored und nur auf grünen Metriken shippt. Es ist das KI-Äquivalent dazu, Integrationstests vor einem Feature zu schreiben.
Was ist eine KI-Eval-Harness?: Eine KI-Eval-Harness ist eine wiederholbare Test-Suite für ein KI-System. Sie fährt ein fixes Set Inputs durch die aktuelle Modell- und Prompt-Pipeline, scored jeden Output gegen eine geschriebene Rubrik und produziert Metriken, die über Releases verglichen werden können. Es ist das KI-Äquivalent eines Integrationstests, adaptiert auf nicht-deterministische Outputs.
Warum die Eval vor dem Agenten bauen?: Weil, wenn die Eval als Zweites gebaut wird, sie um das geformt wird, was der aktuelle Agent zufällig gut macht. Die Harness wird zur Schmeichlerin. Als Erstes gebaut hat der Agent ein Ziel zu optimieren statt eines Vibes zu jagen.
Wie viele Fixtures brauchen Sie zum Start?: 50 bis 200 Beispiele reichen zum Start, aus echtem Traffic gesourced statt aus imaginierten Personas. Wenn Sie kein Fixture-Set produzieren können, verstehen Sie das Problem noch nicht, und jedes KI-System, das Sie bauen, wird diese Lücke reflektieren.

Englische Fassung: Eval-Driven KI on the EN edition.

Eval-Driven KI

Die drei Schichten einer Eval-Harness.

Warum Eval-Driven KI die einzige KI ist, die shippt.

Die Feldregel.

Häufige Fragen.

Die Morvion Eval-Spec

Weiter im Glossar.

KI-Infrastruktur

Eval-Harness

Regression Gate

RAG (Retrieval-Augmented Generation)

Model Context Protocol (MCP)

Agent Tool Use

LLM-Guardrails

Vektor-Index

Strukturierte Ausgabe

Prompt Injection

Observability-Traces

Agent-Handoff

Retrieval-Rerank

KI-Observability

Multi-Agent-Workflow

Embedding-Modell

Semantische Suche

Vektor-Datenbank

Fine-Tuning

Halluzination

Chain-of-Thought

Function Calling

Agentic Search

Embedding-Raum

Context-Window

Prompt Engineering

Vektor-Suche

Token-Budget

Semantischer Cache

Faithfulness

Cross-Encoder

Modell-Router

KI-Kostenkontrolle

Modell-Destillation

Safety-Rails

KI-Agent

CRM-Intelligenz

Document Intelligence

Discovery Sprint

Digital Operating Layer

Immersive Website

Hospitality-Website

Marktplatz-Plattform

Business Intelligence Dashboard

Echtzeit-Dashboard

Kunden-Portal

Agent-Memory

Strukturierte Extraktion

KI-Evaluations-Framework

Retrieval-Qualität

KI-Guardrail-Policy

Eval-Fixture

Eval-Rubrik

KI-Incident

Agent-Orchestrierung

Eval-Versionierung

Modell-Fallback

Fein-granulares Routing

KI-Policy-Versionskontrolle