Eval-Versionierung ist die Disziplin, das Fixture-Set, die Rubrik und die Regressions-Baseline als versionierte Artefakte zu behandeln — in Git gespeichert, PR-reviewed, release-noted. Ohne sie ist ein Score von dieser Woche nicht vergleichbar mit letzter Wochen, und Drift ist unsichtbar. Mit ihr ist jede Bewegung auf dem Scoreboard auf eine spezifische Änderung zurückverfolgbar.
Was versioniert wird.
- Das Fixture-Set. Hinzufügen, Entfernen oder Neu-Labeln von Fixtures ändert die Bedeutung jedes Scores dagegen. Jede Änderung ist ein Commit mit Rationale.
- Die Rubrik. Eine umformulierte Klausel verschiebt die Output-Verteilung des LLM-Graders. Rubriken werden versioniert; grosse Edits triggern ein Re-Baseline des Scoreboards.
- Das Baseline-Scoreboard. Die Zahlen vom vorherigen Release. Das Regression-Gate liest daraus; neue Releases vergleichen sich gegen diese Baseline.
- Die Grader-Modell-Version. Ein LLM-Grader-Update verschiebt Scores selbst auf identischen Fixtures und Rubriken. Pinnen Sie die Grader-Version; bumpen Sie sie absichtlich.
Wann re-baselinen.
Re-baselinen, wenn die Rubrik sich meaningful ändert, wenn das Grader-Modell upgegradet wird oder wenn das Fixture-Set um mehr als ~20% durchgewechselt wird. Sonst die Baseline in Ruhe lassen; der Wert des Scoreboards ist seine Kontinuität.
Häufige Fragen.
- Was ist Eval-Versionierung?
- Eval-Versionierung ist die Disziplin, das Fixture-Set, die Rubrik, das Baseline-Scoreboard und die Grader-Modell-Version als versionierte Artefakte in Git zu behandeln. Jedes ist PR-reviewed und release-noted. Ohne sie sind Scores nicht über Releases vergleichbar. Mit ihr ist jedes Drift auf eine spezifische Änderung zurückverfolgbar.
- Wann re-baselinen wir das Scoreboard?
- Wenn die Rubrik sich meaningful ändert, wenn das Grader-Modell upgegradet wird oder wenn das Fixture-Set um mehr als ~20% durchgewechselt wird. Sonst die Baseline in Ruhe lassen — der Wert des Scoreboards ist seine Kontinuität über Releases.
- Sollten wir das Grader-Modell versionieren?
- Ja. Ein LLM-Grader-Update verschiebt Scores selbst auf identischen Fixtures und Rubriken. Pinnen Sie die Grader-Version wie jede andere Infrastruktur-Abhängigkeit. Bumpen Sie sie absichtlich, behandeln Sie es als scoreboard-affecting Änderung, re-baselinen Sie nach dem Bump.
- Wie verhält sich Eval-Versionierung zum Regression-Gate?
- Das Regression-Gate liest aus dem versionierten Baseline-Scoreboard. Ein Release shippt nur, wenn das neue Scoreboard nicht past Toleranz von der Baseline regressiert. Ohne Versionierung ist die Baseline, was sich irgendjemand erinnert, was bedeutet, dass das Gate Theater ist.
Englische Fassung: Eval-Versionierung on the EN edition.