Ein KI-Evaluations-Framework ist die Disziplin-Schicht über jeder einzelnen Eval-Harness. Die Harness ist das Werkzeug; das Framework ist die Methodologie — wie Fixtures gesourced werden, wie Rubriken versioniert werden, wie Regressions-Policies gesetzt werden, wie Releases gegated werden und wie all das über mehrere Workflows am selben Produkt kohärent bleibt.
Die fünf Stücke eines Frameworks.
- Fixture-Sourcing-Policy. Woher kommen echte Beispiele? Produktions-Sampling, manuelle Kuration, synthetische Generierung? Wie werden sie gelabelt? Wie oft aufgefrischt?
- Rubrik-Bibliothek. Wiederverwendbare Scoring-Rubriken über Workflows (Faithfulness, Refusal-Angemessenheit, Format-Einhaltung). Versioniert und geteilt, sodass unterschiedliche Teams dieselben Dinge auf dieselbe Weise messen.
- Regressions-Policy. Die Toleranzen. Wie viel kann eine Metrik droppen, bevor ein Release geblockt wird? Defaults unterscheiden sich pro Metrik (Faithfulness ≤ 0.02 Drop; Throughput ≤ 10%).
- Release-Gates. Die CI-Regeln, die den Eval-Output lesen und entscheiden, ob die Änderung shippt. Gate-Logic lebt in Version-Control, nicht in jemandes Kopf.
- Audit-Log. Jedes Release zeichnet auf, gegen welche Rubriken es gescored hat, was jede Metrik war und ob irgendein Gate überschrieben wurde. Der auditierbare Trail des Frameworks.
Warum ein Framework, nicht nur eine Harness.
Eine Harness scored einen Workflow. Ein Framework hält hundert Workflows konsistent gescored. Ohne das Framework pickt jedes Team seine eigenen Metriken, dasselbe Wort bedeutet unterschiedliche Dinge in unterschiedlichen Scoreboards, und Cross-Product-Vergleich ist unmöglich. Das Framework ist der Unterschied zwischen KI-Engineering als Handwerk und KI-Engineering als Disziplin.
Die Morvion Eval-Spec.
Das Framework des Studios, offen publiziert auf /eval-spec: Schemata, Scoring-Bibliothek, vier ausgearbeitete Beispiele und die Konventionen, die jedes Morvion- Intelligent-Systems-Engagement erbt. Das Framework ist die Version, die jedes Team lesen, adoptieren und challengen kann.
Häufige Fragen.
- Was ist ein KI-Evaluations-Framework?
- Ein KI-Evaluations-Framework ist die Disziplin-Schicht über jeder einzelnen Eval-Harness. Es definiert Fixture-Sourcing, Rubrik-Wiederverwendung, Regressions-Toleranzen, Release-Gate-Logic und das Audit-Log — sodass mehrere Workflows am selben Produkt konsistent gescored bleiben.
- Was ist der Unterschied zwischen einem Framework und einer Harness?
- Eine Harness ist das laufende Werkzeug — Fixtures + Rubrik + Scorer für einen Workflow. Ein Framework ist die Methodologie, die viele Harnesses kohärent hält: geteilte Rubrik-Bibliothek, geteilte Regressions-Policy, geteilte Release-Gate-Logic. Harnesses werden gefahren; Frameworks werden geschrieben.
- Brauchen wir ein Framework, wenn wir nur einen KI-Workflow haben?
- Strikt nicht, aber es einmal aufzuschreiben kostet wenig und zahlt sich aus, sobald Sie einen zweiten Workflow hinzufügen. Die meiste produktive KI wächst von einem Workflow auf fünf innerhalb eines Jahres. Das beim Workflow #1 geschriebene Framework lässt Workflows #2–#5 schneller shippen und messbar bleiben.
- Was enthält Morvions Framework?
- Fixture- und Rubrik-JSON-Schemata, eine TypeScript-Scoring-Bibliothek, vier ausgearbeitete Beispiele (RAG, Klassifikation, agentischer Workflow, Dokumenten-Extraktion), eine CLI-Harness und ein CI-Integrations-Template. Offen unter MIT auf /eval-spec publiziert.
Englische Fassung: KI-Evaluations-Framework on the EN edition.