Ein KI-Incident ist ein Produktions-Failure eines KI-Systems, der ernst genug ist, um eine strukturierte Response zu rechtfertigen. Schlechter Output, der einen echten Nutzer erreichte. Eine Regression, die ein Release-Gate sprengte. Eine regulatorische Exposition. Ein Runaway-Cost-Event. Das Muster spiegelt klassische Site-Reliability-Incidents, aber die Failure-Modes sind KI-spezifisch und das Postmortem sieht anders aus.
Die vier gängigen Klassen.
- Output-Incident. Eine falsche, schädliche oder off-Brand-Antwort erreichte einen echten Nutzer. Die sichtbarste Klasse und üblicherweise die, über die Kunden sich zuerst beschweren.
- Gate-Blow. Ein Release schaffte es in Produktion trotz eines Eval-Gate-Failures, weil jemand das Gate überschrieb. Schlechte Antwort war im System in dem Moment, in dem das Override passierte.
- Cost-Incident. Ein Bug oder eine Regression verursachte einen Runaway-Modell-Spend. Ohne einen gateway-erzwungenen Token-Budget können das Zehntausende Dollars sein, bevor jemand es bemerkt.
- Compliance-Incident. Das System handhabte Daten, generierte Output oder nahm eine Aktion auf eine Weise, die eine Policy oder Regulierung verletzt. PII-Leak, Jurisdiktions-Failure, fehlender Audit-Trail.
Die Response, in fünf Schritten.
- Die Blutung stoppen. Die Änderung zurückrollen, den Workflow deaktivieren oder auf das letzte grüne Release pinnen. Nutzer davon abhalten, den schlechten Pfad zu treffen — zuerst; erklären — zweitens.
- Aus Observability reproduzieren. Der Trace-Store sollte einem Engineer erlauben, den exakten gescheiterten Run end-to-end zu replayen. Wenn er das nicht kann, ist die Observability-Schicht das Nächste, das gefixt wird.
- Eine Fixture hinzufügen. Was auch immer brach, bekommt eine Fixture in der Eval-Harness, damit das Regression-Gate es das nächste Mal fängt. Die Fixture ist die Quittung für den Incident.
- Postmortem. Blameless-Aufschrieb: was passierte, warum es nicht gefangen wurde, welche Änderungen die Klasse von Failure verhindern (nicht nur diese Instanz).
- Kommunizieren. An betroffene Nutzer, an interne Stakeholder, an Regulatoren wenn relevant. Templated nach Incident-Klasse, nicht unter Druck improvisiert.
Das Präventions-Muster.
Die Eval-Harness, das Regression-Gate, das Token-Budget und der Observability-Trace sind die vier Schichten, die die meisten potentiellen KI-Incidents in gefangene Regressionen verwandeln, bevor sie Produktion treffen. Jeder Incident, der doch passiert, wird eine neue Fixture in der Harness; das System wird monoton stärker über Zeit. Ohne diese vier Schichten sind KI-Incidents unbegrenzt.
Häufige Fragen.
- Was ist ein KI-Incident?
- Ein KI-Incident ist ein Produktions-Failure eines KI-Systems, der ernst genug ist, um eine strukturierte Response zu rechtfertigen. Vier gängige Klassen: Output-Incident (schlechte Antwort erreichte einen Nutzer), Gate-Blow (Override eines scheiternden Release-Gates), Cost-Incident (Runaway-Spend) und Compliance-Incident (PII-Leak, Jurisdiktions-Failure, fehlender Audit-Trail).
- Wie unterscheidet sich KI-Incident-Response von SRE-Incident-Response?
- Die Struktur ist ähnlich — die Blutung stoppen, reproduzieren, die Klasse fixen, Postmortem, kommunizieren — aber die Failure-Modes sind KI-spezifisch. Sie replayen aus dem Observability-Trace statt aus Logs. Sie fügen eine Fixture zur Eval-Harness hinzu statt eines Regressions-Tests. Das Postmortem konfrontiert Prompt- und Rubrik-Änderungen, nicht nur Code-Änderungen.
- Wie verhindert man KI-Incidents?
- Vier Schichten in Kombination: die Eval-Harness (fängt Regressionen vor Release), das Regression-Gate (blockt den Merge), das Token-Budget (cappt Cost-Incidents) und der Observability-Trace (macht den Rest des Postmortems möglich). Jeder Incident, der doch passiert, wird eine neue Fixture; das System wird monoton stärker über Zeit.
- Wer führt eine KI-Incident-Response?
- Der Engineering-Lead treibt die technische Response. Product besitzt Nutzer-Kommunikation. Legal/Compliance wird auf der Compliance-Incident-Klasse einbezogen. Das Morvion-Incident-Template deckt alle drei Lanes ab; Templates schlagen unter Druck improvisieren.
Englische Fassung: KI-Incident on the EN edition.