Eval-Driven KI ist eine Entwicklungs-Disziplin, die die Evaluations-Harness vor dem Agenten schreibt, jeden Output gegen eine versionierte Rubrik scored und nur shippt, wenn die Metriken grün sind. Es ist das KI-Äquivalent dazu, Integrationstests vor einem Feature zu schreiben — adaptiert auf Outputs, die nicht binär sind.

Die drei Schichten einer Eval-Harness.

  • Fixtures. Ein kuratierter Datensatz realer Inputs, gelabelt mit dem, was ein guter Output aussieht. 50 bis 200 Beispiele zum Start, aus echtem Traffic gesourced.
  • Rubrik. Die geschriebene Definition von «gut» für jede Input-Klasse. Manchmal deterministisch, manchmal LLM-gegradet, gelegentlich human-gegradet. Versioniert neben den Prompts.
  • Regressions-Suite. Eine Baseline-Zahl für jede Metrik, auf jedem Release gespeichert. Neue Releases shippen nur, wenn keine Metrik past einer definierten Toleranz regressiert.

Warum Eval-Driven KI die einzige KI ist, die shippt.

Ohne Evals regressieren KI-Projekte still. Ein Modell-Swap, eine Prompt-Änderung, ein Retrieval-Refactor — all das kann Qualität auf Weisen degradieren, die niemand bemerkt, bis ein Kunde sich beschwert. Die Eval-Harness ist das Einzige im Projekt, das diese Änderungen unverändert überlebt, und die einzige objektive Antwort auf «ist das besser als letzte Woche?»

«Ein KI-System ohne Evals ist ein Vibe. Ein Vibe ist kein Produkt.»

Die Feldregel.

Wenn der Engineering-Lead Ihnen das Eval-Script und das Scoreboard vom letzten Release nicht zeigen kann, ist das fragliche KI-System nicht shippbar. Es läuft nur. Jedes Morvion-KI-Engagement startet hier — bevor irgendein Prompt oder Retrieval-Pipeline geschrieben wird.

Häufige Fragen.

Was ist Eval-Driven KI?
Eval-Driven KI ist eine Entwicklungs-Disziplin, die die Evaluations-Harness vor dem Agenten schreibt, jeden Output gegen eine versionierte Rubrik scored und nur auf grünen Metriken shippt. Es ist das KI-Äquivalent dazu, Integrationstests vor einem Feature zu schreiben.
Was ist eine KI-Eval-Harness?
Eine KI-Eval-Harness ist eine wiederholbare Test-Suite für ein KI-System. Sie fährt ein fixes Set Inputs durch die aktuelle Modell- und Prompt-Pipeline, scored jeden Output gegen eine geschriebene Rubrik und produziert Metriken, die über Releases verglichen werden können. Es ist das KI-Äquivalent eines Integrationstests, adaptiert auf nicht-deterministische Outputs.
Warum die Eval vor dem Agenten bauen?
Weil, wenn die Eval als Zweites gebaut wird, sie um das geformt wird, was der aktuelle Agent zufällig gut macht. Die Harness wird zur Schmeichlerin. Als Erstes gebaut hat der Agent ein Ziel zu optimieren statt eines Vibes zu jagen.
Wie viele Fixtures brauchen Sie zum Start?
50 bis 200 Beispiele reichen zum Start, aus echtem Traffic gesourced statt aus imaginierten Personas. Wenn Sie kein Fixture-Set produzieren können, verstehen Sie das Problem noch nicht, und jedes KI-System, das Sie bauen, wird diese Lücke reflektieren.

Englische Fassung: Eval-Driven KI on the EN edition.