Sollten wir deterministische, LLM-gegradete oder human-gegradete Rubriken nutzen?

Was zur Dimension passt. Deterministisch für Exact-Match und Schema-Validierung. LLM-gegradet für Faithfulness, Ton, Format-Einhaltung. Human-gegradet für High-Stakes-Kalibrierung und Spot-Checks. Die meisten Workflows nutzen alle drei auf unterschiedlichen Schichten.

Wie spezifisch sollte eine Rubrik sein?

So spezifisch wie möglich. «Die Antwort zitiert den Quell-Span wörtlich» schlägt «die Antwort ist gegroundet». Mehrere schmale Dimensionen (Faithfulness, Format, Ton — separat gegradet) schlagen einen einzelnen unscharfen Overall-Score. Der Akt, die Rubrik spezifisch zu schreiben, ist, wo das Team konfrontiert, was es tatsächlich von der KI will.

Was passiert, wenn wir die Rubrik ändern?

Jeder Score vor der Änderung wird nicht-vergleichbar mit jedem Score danach. Behandeln Sie Rubrik-Edits wie Prompt-Edits: Version-Control, PR-Review, Release-Note, die die Änderung erklärt. Grosse Rubrik-Edits triggern ein Re-Baseline des Scoreboards.

Eval-Rubrik · Morvion Glossar

Eine Eval-Rubrik ist die geschriebene Definition dessen, was als guter Output für eine Input-Klasse zählt. Es ist der Scoring-Kontrakt, der subjektives Urteil in eine Zahl verwandelt, die eine Eval-Harness über Releases vergleichen kann. Rubrik-Qualität bestimmt, ob das Scoreboard tatsächliche Produkt-Qualität reflektiert oder nur die Stimmung des Rubrik-Autors.

Die drei Rubrik-Formen.

Deterministisch. Der Output matched entweder dem erwarteten Wert oder nicht. Schema-Validierung, Fakt-Lookup, Exact-Match-Klassifikation. Am schnellsten, günstigsten und am besten, wenn die Antwort binär ist.
LLM-gegradet. Ein Judge-Modell scored den Output gegen eine geschriebene Rubrik. Genutzt für Faithfulness, Ton, Angemessenheit und andere Kriterien, die sich nicht auf Exact-Match reduzieren. Langsamer und noisier als deterministisch, aber auf subjektiven Dimensionen nutzbar.
Human-gegradet. Ein Domänen-Experte scored ein Sample. Das zuverlässigste und teuerste. Genutzt, um den LLM-Grader zu kalibrieren und die Produktions-Output- Verteilung spot-zu-checken.

Eine gute Rubrik schreiben.

Spezifisch über generell («die Antwort zitiert den Quell- Span wörtlich» schlägt «die Antwort ist gegroundet»). Mehrere schmale Dimensionen über einen einzelnen unscharfen Overall- Score (Faithfulness, Format, Ton — separat gegradet). Ausgearbeitete Beispiele — für jede Dimension einen passenden und einen scheiternden Output zeigen. Die Rubrik ist ein lebendes Dokument; neue Edge-Cases werden zu neuen Klauseln.

Rubriken werden auch versioniert.

Eine Rubrik-Änderung verschiebt die Bedeutung jedes Scores. Behandeln Sie Rubrik-Edits wie Prompt-Edits: in Version- Control, PR-reviewed, mit Release-Note, die die Änderung erklärt. Das Scoreboard vor dem Rubrik-Edit ist nicht direkt mit dem Scoreboard danach vergleichbar.

Häufige Fragen.

Was ist eine Eval-Rubrik?: Eine Eval-Rubrik ist die geschriebene Definition dessen, was als guter Output für eine Input-Klasse zählt. Sie ist der Scoring-Kontrakt, der subjektives Urteil in eine Zahl verwandelt, die eine Eval-Harness über Releases vergleichen kann. Ohne Rubrik misst das Scoreboard die Stimmung des Rubrik-Autors statt des Produkts.
Sollten wir deterministische, LLM-gegradete oder human-gegradete Rubriken nutzen?: Was zur Dimension passt. Deterministisch für Exact-Match und Schema-Validierung. LLM-gegradet für Faithfulness, Ton, Format-Einhaltung. Human-gegradet für High-Stakes-Kalibrierung und Spot-Checks. Die meisten Workflows nutzen alle drei auf unterschiedlichen Schichten.
Wie spezifisch sollte eine Rubrik sein?: So spezifisch wie möglich. «Die Antwort zitiert den Quell-Span wörtlich» schlägt «die Antwort ist gegroundet». Mehrere schmale Dimensionen (Faithfulness, Format, Ton — separat gegradet) schlagen einen einzelnen unscharfen Overall-Score. Der Akt, die Rubrik spezifisch zu schreiben, ist, wo das Team konfrontiert, was es tatsächlich von der KI will.
Was passiert, wenn wir die Rubrik ändern?: Jeder Score vor der Änderung wird nicht-vergleichbar mit jedem Score danach. Behandeln Sie Rubrik-Edits wie Prompt-Edits: Version-Control, PR-Review, Release-Note, die die Änderung erklärt. Grosse Rubrik-Edits triggern ein Re-Baseline des Scoreboards.

Englische Fassung: Eval-Rubrik on the EN edition.

Eval-Rubrik

Die drei Rubrik-Formen.

Eine gute Rubrik schreiben.

Rubriken werden auch versioniert.

Häufige Fragen.

Die Morvion Eval-Spec

Weiter im Glossar.

KI-Infrastruktur

Eval-Harness

Regression Gate

RAG (Retrieval-Augmented Generation)

Model Context Protocol (MCP)

Agent Tool Use

LLM-Guardrails

Vektor-Index

Strukturierte Ausgabe

Prompt Injection

Observability-Traces

Agent-Handoff

Retrieval-Rerank

KI-Observability

Multi-Agent-Workflow

Embedding-Modell

Semantische Suche

Vektor-Datenbank

Fine-Tuning

Halluzination

Chain-of-Thought

Function Calling

Agentic Search

Embedding-Raum

Context-Window

Prompt Engineering

Vektor-Suche

Token-Budget

Semantischer Cache

Faithfulness

Cross-Encoder

Modell-Router

KI-Kostenkontrolle

Modell-Destillation

Safety-Rails

KI-Agent

CRM-Intelligenz

Document Intelligence

Eval-Driven KI

Discovery Sprint

Digital Operating Layer

Immersive Website

Hospitality-Website

Marktplatz-Plattform

Business Intelligence Dashboard

Echtzeit-Dashboard

Kunden-Portal

Agent-Memory

Strukturierte Extraktion

KI-Evaluations-Framework

Retrieval-Qualität

KI-Guardrail-Policy

Eval-Fixture

KI-Incident

Agent-Orchestrierung

Eval-Versionierung

Modell-Fallback

Fein-granulares Routing

KI-Policy-Versionskontrolle