Ein Regression Gate ist das Artefakt, das Donnerstagnacht- Rollbacks davon abhält, zur Routine zu werden. Es vergleicht die Pro-Metrik-Eval-Scores jedes Releases gegen die letzte freigegebene Baseline und sperrt den PR-Check, sobald eine Metrik die deklarierte Toleranz unterschreitet.

Anatomie eines Gates.

  • Baseline. Pro-Metrik-Mittelwerte vom letzten Release, der den Review bestanden hat. Neben der Eval-Konfiguration gespeichert.
  • Toleranz. Pro-Metrik maximaler akzeptabler Rückgang. Eng (0.00) für strukturelle Metriken, lockerer (0.05–0.10) für LLM-gegradete Metriken mit höherer Score-Varianz.
  • Comparator. Der CI-Schritt, der die Eval-Harness ausführt, aktuelle Pro-Metrik-Mittel berechnet, von der Baseline subtrahiert und non-zero exit, wenn ein Rückgang die Toleranz überschreitet.

Wie eine Toleranz gesetzt wird.

Lassen Sie die Eval-Harness fünfmal gegen unveränderten Code laufen, messen Sie die Standardabweichung jeder Metrik, setzen Sie die Toleranz auf mindestens das Doppelte. Unter dem Rauschpegel triggert das Gate auf Zufall; über 2× davon fängt es echte Rückgänge ohne falsche Positive.

Bypass ist das Failure-Mode.

Beim ersten Mal, dass ein Team eine Regression mit «wir reparieren das nächsten Sprint» durchwinkt, wird das Gate zum Theater. Die Disziplin: entweder die Regression beheben oder die Baseline mit einer expliziten PR-Begründung aktualisieren. Beide Aktionen sind rückgängig zu machen. Bypass ohne Begründung nicht.

Häufige Fragen.

Was ist ein Regression Gate im KI-Deployment?
Ein Regression Gate ist ein automatischer CI-Check, der die Eval-Harness gegen den Kandidaten-Release laufen lässt, Pro-Metrik-Mittelwerte berechnet und den PR sperrt, wenn eine Metrik die Toleranz gegenüber der gespeicherten Baseline überschreitet. Es ist das einzige Artefakt, das stille Qualitäts-Regressionen zuverlässig verhindert, wenn Prompts, Modelle oder Retrieval-Logik geändert werden.
Wie wähle ich die Toleranz für ein Regression Gate?
Lassen Sie die Eval-Harness fünfmal gegen unveränderten Code laufen und messen Sie die Standardabweichung jeder Metrik. Setzen Sie die Toleranz auf mindestens das Doppelte. Strukturelle Metriken (Schema-Validität, verbotene Tokens) erhalten typisch 0.00 Toleranz; LLM-gegradete Metriken brauchen 0.05 bis 0.10, weil Grader-Varianz real ist.
Wann soll ich die Baseline aktualisieren?
Nur nachdem ein Release reviewt wurde, für Produktion vorgesehen ist und der neue Score erklärbar ist. Baseline-Updates sind Entscheidungen, keine Routine. Auto-Update der Baseline bei jedem grünen Lauf löscht den historischen Anker, an dem Regressionen gemessen werden.
Was passiert, wenn das Gate triggert?
Pro-Fixture-Report lesen, fehlerhafte Fixtures identifizieren, Ursache klassifizieren (Bug, Traffic-Verschiebung, akzeptabler Kompromiss), und entweder den Bug beheben, das Fixture-Set mit PR-Begründung aktualisieren oder die Toleranz mit PR-Begründung lockern. Nie das Gate ohne Niederschrift umgehen.

Englische Fassung: Regression Gate on the EN edition.