Ein KI-Incident ist ein Produktions-Failure eines KI-Systems, der ernst genug ist, um eine strukturierte Response zu rechtfertigen. Schlechter Output, der einen echten Nutzer erreichte. Eine Regression, die ein Release-Gate sprengte. Eine regulatorische Exposition. Ein Runaway-Cost-Event. Das Muster spiegelt klassische Site-Reliability-Incidents, aber die Failure-Modes sind KI-spezifisch und das Postmortem sieht anders aus.

Die vier gängigen Klassen.

  • Output-Incident. Eine falsche, schädliche oder off-Brand-Antwort erreichte einen echten Nutzer. Die sichtbarste Klasse und üblicherweise die, über die Kunden sich zuerst beschweren.
  • Gate-Blow. Ein Release schaffte es in Produktion trotz eines Eval-Gate-Failures, weil jemand das Gate überschrieb. Schlechte Antwort war im System in dem Moment, in dem das Override passierte.
  • Cost-Incident. Ein Bug oder eine Regression verursachte einen Runaway-Modell-Spend. Ohne einen gateway-erzwungenen Token-Budget können das Zehntausende Dollars sein, bevor jemand es bemerkt.
  • Compliance-Incident. Das System handhabte Daten, generierte Output oder nahm eine Aktion auf eine Weise, die eine Policy oder Regulierung verletzt. PII-Leak, Jurisdiktions-Failure, fehlender Audit-Trail.

Die Response, in fünf Schritten.

  1. Die Blutung stoppen. Die Änderung zurückrollen, den Workflow deaktivieren oder auf das letzte grüne Release pinnen. Nutzer davon abhalten, den schlechten Pfad zu treffen — zuerst; erklären — zweitens.
  2. Aus Observability reproduzieren. Der Trace-Store sollte einem Engineer erlauben, den exakten gescheiterten Run end-to-end zu replayen. Wenn er das nicht kann, ist die Observability-Schicht das Nächste, das gefixt wird.
  3. Eine Fixture hinzufügen. Was auch immer brach, bekommt eine Fixture in der Eval-Harness, damit das Regression-Gate es das nächste Mal fängt. Die Fixture ist die Quittung für den Incident.
  4. Postmortem. Blameless-Aufschrieb: was passierte, warum es nicht gefangen wurde, welche Änderungen die Klasse von Failure verhindern (nicht nur diese Instanz).
  5. Kommunizieren. An betroffene Nutzer, an interne Stakeholder, an Regulatoren wenn relevant. Templated nach Incident-Klasse, nicht unter Druck improvisiert.

Das Präventions-Muster.

Die Eval-Harness, das Regression-Gate, das Token-Budget und der Observability-Trace sind die vier Schichten, die die meisten potentiellen KI-Incidents in gefangene Regressionen verwandeln, bevor sie Produktion treffen. Jeder Incident, der doch passiert, wird eine neue Fixture in der Harness; das System wird monoton stärker über Zeit. Ohne diese vier Schichten sind KI-Incidents unbegrenzt.

Häufige Fragen.

Was ist ein KI-Incident?
Ein KI-Incident ist ein Produktions-Failure eines KI-Systems, der ernst genug ist, um eine strukturierte Response zu rechtfertigen. Vier gängige Klassen: Output-Incident (schlechte Antwort erreichte einen Nutzer), Gate-Blow (Override eines scheiternden Release-Gates), Cost-Incident (Runaway-Spend) und Compliance-Incident (PII-Leak, Jurisdiktions-Failure, fehlender Audit-Trail).
Wie unterscheidet sich KI-Incident-Response von SRE-Incident-Response?
Die Struktur ist ähnlich — die Blutung stoppen, reproduzieren, die Klasse fixen, Postmortem, kommunizieren — aber die Failure-Modes sind KI-spezifisch. Sie replayen aus dem Observability-Trace statt aus Logs. Sie fügen eine Fixture zur Eval-Harness hinzu statt eines Regressions-Tests. Das Postmortem konfrontiert Prompt- und Rubrik-Änderungen, nicht nur Code-Änderungen.
Wie verhindert man KI-Incidents?
Vier Schichten in Kombination: die Eval-Harness (fängt Regressionen vor Release), das Regression-Gate (blockt den Merge), das Token-Budget (cappt Cost-Incidents) und der Observability-Trace (macht den Rest des Postmortems möglich). Jeder Incident, der doch passiert, wird eine neue Fixture; das System wird monoton stärker über Zeit.
Wer führt eine KI-Incident-Response?
Der Engineering-Lead treibt die technische Response. Product besitzt Nutzer-Kommunikation. Legal/Compliance wird auf der Compliance-Incident-Klasse einbezogen. Das Morvion-Incident-Template deckt alle drei Lanes ab; Templates schlagen unter Druck improvisieren.

Englische Fassung: KI-Incident on the EN edition.