Was ist ein KI-Evaluations-Framework?

Ein KI-Evaluations-Framework ist die Disziplin-Schicht über jeder einzelnen Eval-Harness. Es definiert Fixture-Sourcing, Rubrik-Wiederverwendung, Regressions-Toleranzen, Release-Gate-Logic und das Audit-Log — sodass mehrere Workflows am selben Produkt konsistent gescored bleiben.

Was ist der Unterschied zwischen einem Framework und einer Harness?

Eine Harness ist das laufende Werkzeug — Fixtures + Rubrik + Scorer für einen Workflow. Ein Framework ist die Methodologie, die viele Harnesses kohärent hält: geteilte Rubrik-Bibliothek, geteilte Regressions-Policy, geteilte Release-Gate-Logic. Harnesses werden gefahren; Frameworks werden geschrieben.

Brauchen wir ein Framework, wenn wir nur einen KI-Workflow haben?

Strikt nicht, aber es einmal aufzuschreiben kostet wenig und zahlt sich aus, sobald Sie einen zweiten Workflow hinzufügen. Die meiste produktive KI wächst von einem Workflow auf fünf innerhalb eines Jahres. Das beim Workflow #1 geschriebene Framework lässt Workflows #2–#5 schneller shippen und messbar bleiben.

Was enthält Morvions Framework?

Fixture- und Rubrik-JSON-Schemata, eine TypeScript-Scoring-Bibliothek, vier ausgearbeitete Beispiele (RAG, Klassifikation, agentischer Workflow, Dokumenten-Extraktion), eine CLI-Harness und ein CI-Integrations-Template. Offen unter MIT auf /eval-spec publiziert.

KI-Evaluations-Framework · Morvion Glossar

Ein KI-Evaluations-Framework ist die Disziplin-Schicht über jeder einzelnen Eval-Harness. Die Harness ist das Werkzeug; das Framework ist die Methodologie — wie Fixtures gesourced werden, wie Rubriken versioniert werden, wie Regressions-Policies gesetzt werden, wie Releases gegated werden und wie all das über mehrere Workflows am selben Produkt kohärent bleibt.

Die fünf Stücke eines Frameworks.

Fixture-Sourcing-Policy. Woher kommen echte Beispiele? Produktions-Sampling, manuelle Kuration, synthetische Generierung? Wie werden sie gelabelt? Wie oft aufgefrischt?
Rubrik-Bibliothek. Wiederverwendbare Scoring-Rubriken über Workflows (Faithfulness, Refusal-Angemessenheit, Format-Einhaltung). Versioniert und geteilt, sodass unterschiedliche Teams dieselben Dinge auf dieselbe Weise messen.
Regressions-Policy. Die Toleranzen. Wie viel kann eine Metrik droppen, bevor ein Release geblockt wird? Defaults unterscheiden sich pro Metrik (Faithfulness ≤ 0.02 Drop; Throughput ≤ 10%).
Release-Gates. Die CI-Regeln, die den Eval-Output lesen und entscheiden, ob die Änderung shippt. Gate-Logic lebt in Version-Control, nicht in jemandes Kopf.
Audit-Log. Jedes Release zeichnet auf, gegen welche Rubriken es gescored hat, was jede Metrik war und ob irgendein Gate überschrieben wurde. Der auditierbare Trail des Frameworks.

Warum ein Framework, nicht nur eine Harness.

Eine Harness scored einen Workflow. Ein Framework hält hundert Workflows konsistent gescored. Ohne das Framework pickt jedes Team seine eigenen Metriken, dasselbe Wort bedeutet unterschiedliche Dinge in unterschiedlichen Scoreboards, und Cross-Product-Vergleich ist unmöglich. Das Framework ist der Unterschied zwischen KI-Engineering als Handwerk und KI-Engineering als Disziplin.

Die Morvion Eval-Spec.

Das Framework des Studios, offen publiziert auf /eval-spec: Schemata, Scoring-Bibliothek, vier ausgearbeitete Beispiele und die Konventionen, die jedes Morvion- Intelligent-Systems-Engagement erbt. Das Framework ist die Version, die jedes Team lesen, adoptieren und challengen kann.

Häufige Fragen.

Was ist ein KI-Evaluations-Framework?: Ein KI-Evaluations-Framework ist die Disziplin-Schicht über jeder einzelnen Eval-Harness. Es definiert Fixture-Sourcing, Rubrik-Wiederverwendung, Regressions-Toleranzen, Release-Gate-Logic und das Audit-Log — sodass mehrere Workflows am selben Produkt konsistent gescored bleiben.
Was ist der Unterschied zwischen einem Framework und einer Harness?: Eine Harness ist das laufende Werkzeug — Fixtures + Rubrik + Scorer für einen Workflow. Ein Framework ist die Methodologie, die viele Harnesses kohärent hält: geteilte Rubrik-Bibliothek, geteilte Regressions-Policy, geteilte Release-Gate-Logic. Harnesses werden gefahren; Frameworks werden geschrieben.
Brauchen wir ein Framework, wenn wir nur einen KI-Workflow haben?: Strikt nicht, aber es einmal aufzuschreiben kostet wenig und zahlt sich aus, sobald Sie einen zweiten Workflow hinzufügen. Die meiste produktive KI wächst von einem Workflow auf fünf innerhalb eines Jahres. Das beim Workflow #1 geschriebene Framework lässt Workflows #2–#5 schneller shippen und messbar bleiben.
Was enthält Morvions Framework?: Fixture- und Rubrik-JSON-Schemata, eine TypeScript-Scoring-Bibliothek, vier ausgearbeitete Beispiele (RAG, Klassifikation, agentischer Workflow, Dokumenten-Extraktion), eine CLI-Harness und ein CI-Integrations-Template. Offen unter MIT auf /eval-spec publiziert.

Englische Fassung: KI-Evaluations-Framework on the EN edition.

KI-Evaluations-Framework

Die fünf Stücke eines Frameworks.

Warum ein Framework, nicht nur eine Harness.

Die Morvion Eval-Spec.

Häufige Fragen.

Die Morvion Eval-Spec

Weiter im Glossar.

KI-Infrastruktur

Eval-Harness

Regression Gate

RAG (Retrieval-Augmented Generation)

Model Context Protocol (MCP)

Agent Tool Use

LLM-Guardrails

Vektor-Index

Strukturierte Ausgabe

Prompt Injection

Observability-Traces

Agent-Handoff

Retrieval-Rerank

KI-Observability

Multi-Agent-Workflow

Embedding-Modell

Semantische Suche

Vektor-Datenbank

Fine-Tuning

Halluzination

Chain-of-Thought

Function Calling

Agentic Search

Embedding-Raum

Context-Window

Prompt Engineering

Vektor-Suche

Token-Budget

Semantischer Cache

Faithfulness

Cross-Encoder

Modell-Router

KI-Kostenkontrolle

Modell-Destillation

Safety-Rails

KI-Agent

CRM-Intelligenz

Document Intelligence

Eval-Driven KI

Discovery Sprint

Digital Operating Layer

Immersive Website

Hospitality-Website

Marktplatz-Plattform

Business Intelligence Dashboard

Echtzeit-Dashboard

Kunden-Portal

Agent-Memory

Strukturierte Extraktion

Retrieval-Qualität

KI-Guardrail-Policy

Eval-Fixture

Eval-Rubrik

KI-Incident

Agent-Orchestrierung

Eval-Versionierung

Modell-Fallback

Fein-granulares Routing

KI-Policy-Versionskontrolle