Was ist ein Regression Gate im KI-Deployment?

Ein Regression Gate ist ein automatischer CI-Check, der die Eval-Harness gegen den Kandidaten-Release laufen lässt, Pro-Metrik-Mittelwerte berechnet und den PR sperrt, wenn eine Metrik die Toleranz gegenüber der gespeicherten Baseline überschreitet. Es ist das einzige Artefakt, das stille Qualitäts-Regressionen zuverlässig verhindert, wenn Prompts, Modelle oder Retrieval-Logik geändert werden.

Wie wähle ich die Toleranz für ein Regression Gate?

Lassen Sie die Eval-Harness fünfmal gegen unveränderten Code laufen und messen Sie die Standardabweichung jeder Metrik. Setzen Sie die Toleranz auf mindestens das Doppelte. Strukturelle Metriken (Schema-Validität, verbotene Tokens) erhalten typisch 0.00 Toleranz; LLM-gegradete Metriken brauchen 0.05 bis 0.10, weil Grader-Varianz real ist.

Wann soll ich die Baseline aktualisieren?

Nur nachdem ein Release reviewt wurde, für Produktion vorgesehen ist und der neue Score erklärbar ist. Baseline-Updates sind Entscheidungen, keine Routine. Auto-Update der Baseline bei jedem grünen Lauf löscht den historischen Anker, an dem Regressionen gemessen werden.

Was passiert, wenn das Gate triggert?

Pro-Fixture-Report lesen, fehlerhafte Fixtures identifizieren, Ursache klassifizieren (Bug, Traffic-Verschiebung, akzeptabler Kompromiss), und entweder den Bug beheben, das Fixture-Set mit PR-Begründung aktualisieren oder die Toleranz mit PR-Begründung lockern. Nie das Gate ohne Niederschrift umgehen.

Regression Gate · Morvion Glossar

Ein Regression Gate ist das Artefakt, das Donnerstagnacht- Rollbacks davon abhält, zur Routine zu werden. Es vergleicht die Pro-Metrik-Eval-Scores jedes Releases gegen die letzte freigegebene Baseline und sperrt den PR-Check, sobald eine Metrik die deklarierte Toleranz unterschreitet.

Anatomie eines Gates.

Baseline. Pro-Metrik-Mittelwerte vom letzten Release, der den Review bestanden hat. Neben der Eval-Konfiguration gespeichert.
Toleranz. Pro-Metrik maximaler akzeptabler Rückgang. Eng (0.00) für strukturelle Metriken, lockerer (0.05–0.10) für LLM-gegradete Metriken mit höherer Score-Varianz.
Comparator. Der CI-Schritt, der die Eval-Harness ausführt, aktuelle Pro-Metrik-Mittel berechnet, von der Baseline subtrahiert und non-zero exit, wenn ein Rückgang die Toleranz überschreitet.

Wie eine Toleranz gesetzt wird.

Lassen Sie die Eval-Harness fünfmal gegen unveränderten Code laufen, messen Sie die Standardabweichung jeder Metrik, setzen Sie die Toleranz auf mindestens das Doppelte. Unter dem Rauschpegel triggert das Gate auf Zufall; über 2× davon fängt es echte Rückgänge ohne falsche Positive.

Bypass ist das Failure-Mode.

Beim ersten Mal, dass ein Team eine Regression mit «wir reparieren das nächsten Sprint» durchwinkt, wird das Gate zum Theater. Die Disziplin: entweder die Regression beheben oder die Baseline mit einer expliziten PR-Begründung aktualisieren. Beide Aktionen sind rückgängig zu machen. Bypass ohne Begründung nicht.

Häufige Fragen.

Was ist ein Regression Gate im KI-Deployment?: Ein Regression Gate ist ein automatischer CI-Check, der die Eval-Harness gegen den Kandidaten-Release laufen lässt, Pro-Metrik-Mittelwerte berechnet und den PR sperrt, wenn eine Metrik die Toleranz gegenüber der gespeicherten Baseline überschreitet. Es ist das einzige Artefakt, das stille Qualitäts-Regressionen zuverlässig verhindert, wenn Prompts, Modelle oder Retrieval-Logik geändert werden.
Wie wähle ich die Toleranz für ein Regression Gate?: Lassen Sie die Eval-Harness fünfmal gegen unveränderten Code laufen und messen Sie die Standardabweichung jeder Metrik. Setzen Sie die Toleranz auf mindestens das Doppelte. Strukturelle Metriken (Schema-Validität, verbotene Tokens) erhalten typisch 0.00 Toleranz; LLM-gegradete Metriken brauchen 0.05 bis 0.10, weil Grader-Varianz real ist.
Wann soll ich die Baseline aktualisieren?: Nur nachdem ein Release reviewt wurde, für Produktion vorgesehen ist und der neue Score erklärbar ist. Baseline-Updates sind Entscheidungen, keine Routine. Auto-Update der Baseline bei jedem grünen Lauf löscht den historischen Anker, an dem Regressionen gemessen werden.
Was passiert, wenn das Gate triggert?: Pro-Fixture-Report lesen, fehlerhafte Fixtures identifizieren, Ursache klassifizieren (Bug, Traffic-Verschiebung, akzeptabler Kompromiss), und entweder den Bug beheben, das Fixture-Set mit PR-Begründung aktualisieren oder die Toleranz mit PR-Begründung lockern. Nie das Gate ohne Niederschrift umgehen.

Englische Fassung: Regression Gate on the EN edition.

Regression Gate

Anatomie eines Gates.

Wie eine Toleranz gesetzt wird.

Bypass ist das Failure-Mode.

Häufige Fragen.

Intelligente Systeme & KI-Infrastruktur

Weiter im Glossar.

KI-Infrastruktur

Eval-Harness

RAG (Retrieval-Augmented Generation)

Model Context Protocol (MCP)

Agent Tool Use

LLM-Guardrails

Vektor-Index

Strukturierte Ausgabe

Prompt Injection

Observability-Traces

Agent-Handoff

Retrieval-Rerank

KI-Observability

Multi-Agent-Workflow

Embedding-Modell

Semantische Suche

Vektor-Datenbank

Fine-Tuning

Halluzination

Chain-of-Thought

Function Calling

Agentic Search

Embedding-Raum

Context-Window

Prompt Engineering

Vektor-Suche

Token-Budget

Semantischer Cache

Faithfulness

Cross-Encoder

Modell-Router

KI-Kostenkontrolle

Modell-Destillation

Safety-Rails

KI-Agent

CRM-Intelligenz

Document Intelligence

Eval-Driven KI

Discovery Sprint

Digital Operating Layer

Immersive Website

Hospitality-Website

Marktplatz-Plattform

Business Intelligence Dashboard

Echtzeit-Dashboard

Kunden-Portal

Agent-Memory

Strukturierte Extraktion

KI-Evaluations-Framework

Retrieval-Qualität

KI-Guardrail-Policy

Eval-Fixture

Eval-Rubrik

KI-Incident

Agent-Orchestrierung

Eval-Versionierung

Modell-Fallback

Fein-granulares Routing

KI-Policy-Versionskontrolle