Eine Eval-Rubrik ist die geschriebene Definition dessen, was als guter Output für eine Input-Klasse zählt. Es ist der Scoring-Kontrakt, der subjektives Urteil in eine Zahl verwandelt, die eine Eval-Harness über Releases vergleichen kann. Rubrik-Qualität bestimmt, ob das Scoreboard tatsächliche Produkt-Qualität reflektiert oder nur die Stimmung des Rubrik-Autors.
Die drei Rubrik-Formen.
- Deterministisch. Der Output matched entweder dem erwarteten Wert oder nicht. Schema-Validierung, Fakt-Lookup, Exact-Match-Klassifikation. Am schnellsten, günstigsten und am besten, wenn die Antwort binär ist.
- LLM-gegradet. Ein Judge-Modell scored den Output gegen eine geschriebene Rubrik. Genutzt für Faithfulness, Ton, Angemessenheit und andere Kriterien, die sich nicht auf Exact-Match reduzieren. Langsamer und noisier als deterministisch, aber auf subjektiven Dimensionen nutzbar.
- Human-gegradet. Ein Domänen-Experte scored ein Sample. Das zuverlässigste und teuerste. Genutzt, um den LLM-Grader zu kalibrieren und die Produktions-Output- Verteilung spot-zu-checken.
Eine gute Rubrik schreiben.
Spezifisch über generell («die Antwort zitiert den Quell- Span wörtlich» schlägt «die Antwort ist gegroundet»). Mehrere schmale Dimensionen über einen einzelnen unscharfen Overall- Score (Faithfulness, Format, Ton — separat gegradet). Ausgearbeitete Beispiele — für jede Dimension einen passenden und einen scheiternden Output zeigen. Die Rubrik ist ein lebendes Dokument; neue Edge-Cases werden zu neuen Klauseln.
Rubriken werden auch versioniert.
Eine Rubrik-Änderung verschiebt die Bedeutung jedes Scores. Behandeln Sie Rubrik-Edits wie Prompt-Edits: in Version- Control, PR-reviewed, mit Release-Note, die die Änderung erklärt. Das Scoreboard vor dem Rubrik-Edit ist nicht direkt mit dem Scoreboard danach vergleichbar.
Häufige Fragen.
- Was ist eine Eval-Rubrik?
- Eine Eval-Rubrik ist die geschriebene Definition dessen, was als guter Output für eine Input-Klasse zählt. Sie ist der Scoring-Kontrakt, der subjektives Urteil in eine Zahl verwandelt, die eine Eval-Harness über Releases vergleichen kann. Ohne Rubrik misst das Scoreboard die Stimmung des Rubrik-Autors statt des Produkts.
- Sollten wir deterministische, LLM-gegradete oder human-gegradete Rubriken nutzen?
- Was zur Dimension passt. Deterministisch für Exact-Match und Schema-Validierung. LLM-gegradet für Faithfulness, Ton, Format-Einhaltung. Human-gegradet für High-Stakes-Kalibrierung und Spot-Checks. Die meisten Workflows nutzen alle drei auf unterschiedlichen Schichten.
- Wie spezifisch sollte eine Rubrik sein?
- So spezifisch wie möglich. «Die Antwort zitiert den Quell-Span wörtlich» schlägt «die Antwort ist gegroundet». Mehrere schmale Dimensionen (Faithfulness, Format, Ton — separat gegradet) schlagen einen einzelnen unscharfen Overall-Score. Der Akt, die Rubrik spezifisch zu schreiben, ist, wo das Team konfrontiert, was es tatsächlich von der KI will.
- Was passiert, wenn wir die Rubrik ändern?
- Jeder Score vor der Änderung wird nicht-vergleichbar mit jedem Score danach. Behandeln Sie Rubrik-Edits wie Prompt-Edits: Version-Control, PR-Review, Release-Note, die die Änderung erklärt. Grosse Rubrik-Edits triggern ein Re-Baseline des Scoreboards.
Englische Fassung: Eval-Rubrik on the EN edition.