Eine Eval-Rubrik ist die geschriebene Definition dessen, was als guter Output für eine Input-Klasse zählt. Es ist der Scoring-Kontrakt, der subjektives Urteil in eine Zahl verwandelt, die eine Eval-Harness über Releases vergleichen kann. Rubrik-Qualität bestimmt, ob das Scoreboard tatsächliche Produkt-Qualität reflektiert oder nur die Stimmung des Rubrik-Autors.

Die drei Rubrik-Formen.

  • Deterministisch. Der Output matched entweder dem erwarteten Wert oder nicht. Schema-Validierung, Fakt-Lookup, Exact-Match-Klassifikation. Am schnellsten, günstigsten und am besten, wenn die Antwort binär ist.
  • LLM-gegradet. Ein Judge-Modell scored den Output gegen eine geschriebene Rubrik. Genutzt für Faithfulness, Ton, Angemessenheit und andere Kriterien, die sich nicht auf Exact-Match reduzieren. Langsamer und noisier als deterministisch, aber auf subjektiven Dimensionen nutzbar.
  • Human-gegradet. Ein Domänen-Experte scored ein Sample. Das zuverlässigste und teuerste. Genutzt, um den LLM-Grader zu kalibrieren und die Produktions-Output- Verteilung spot-zu-checken.

Eine gute Rubrik schreiben.

Spezifisch über generell («die Antwort zitiert den Quell- Span wörtlich» schlägt «die Antwort ist gegroundet»). Mehrere schmale Dimensionen über einen einzelnen unscharfen Overall- Score (Faithfulness, Format, Ton — separat gegradet). Ausgearbeitete Beispiele — für jede Dimension einen passenden und einen scheiternden Output zeigen. Die Rubrik ist ein lebendes Dokument; neue Edge-Cases werden zu neuen Klauseln.

Rubriken werden auch versioniert.

Eine Rubrik-Änderung verschiebt die Bedeutung jedes Scores. Behandeln Sie Rubrik-Edits wie Prompt-Edits: in Version- Control, PR-reviewed, mit Release-Note, die die Änderung erklärt. Das Scoreboard vor dem Rubrik-Edit ist nicht direkt mit dem Scoreboard danach vergleichbar.

Häufige Fragen.

Was ist eine Eval-Rubrik?
Eine Eval-Rubrik ist die geschriebene Definition dessen, was als guter Output für eine Input-Klasse zählt. Sie ist der Scoring-Kontrakt, der subjektives Urteil in eine Zahl verwandelt, die eine Eval-Harness über Releases vergleichen kann. Ohne Rubrik misst das Scoreboard die Stimmung des Rubrik-Autors statt des Produkts.
Sollten wir deterministische, LLM-gegradete oder human-gegradete Rubriken nutzen?
Was zur Dimension passt. Deterministisch für Exact-Match und Schema-Validierung. LLM-gegradet für Faithfulness, Ton, Format-Einhaltung. Human-gegradet für High-Stakes-Kalibrierung und Spot-Checks. Die meisten Workflows nutzen alle drei auf unterschiedlichen Schichten.
Wie spezifisch sollte eine Rubrik sein?
So spezifisch wie möglich. «Die Antwort zitiert den Quell-Span wörtlich» schlägt «die Antwort ist gegroundet». Mehrere schmale Dimensionen (Faithfulness, Format, Ton — separat gegradet) schlagen einen einzelnen unscharfen Overall-Score. Der Akt, die Rubrik spezifisch zu schreiben, ist, wo das Team konfrontiert, was es tatsächlich von der KI will.
Was passiert, wenn wir die Rubrik ändern?
Jeder Score vor der Änderung wird nicht-vergleichbar mit jedem Score danach. Behandeln Sie Rubrik-Edits wie Prompt-Edits: Version-Control, PR-Review, Release-Note, die die Änderung erklärt. Grosse Rubrik-Edits triggern ein Re-Baseline des Scoreboards.

Englische Fassung: Eval-Rubrik on the EN edition.