Eine KI-Guardrail-Policy ist die geschriebene Spezifikation dessen, was ein KI-System verweigern, validieren und eskalieren muss. Die Policy ist das Dokument; die LLM-Guardrails und Safety-Rails sind der Code, der sie durchsetzt. Ohne die Policy sind die Rails improvisiert. Ohne die Rails ist die Policy dekorativ.

Die vier Sektionen einer Policy.

  • Refusal-Kategorien. Die Klassen von Input oder Output, die das System nie produzieren darf. Workflow- spezifisch: ein juristischer Drafter verweigert andere Dinge als ein Kreativ-Assistent.
  • Validierungs-Regeln. Die Schemata, Formate und Constraints, die jeder Output erfüllen muss, bevor er das System verlässt. Output, der ein JSON-Feld enthält, das nicht im Katalog existiert, ist ein Validierungs-Failure.
  • Eskalations-Regeln. Wann geht ein Request an einen Menschen? Low-Confidence-Extraktionen, mehrdeutige Klassifikationen, High-Stakes-Aktionen (Geld ausgeben, externe Nachrichten senden).
  • Audit + Transparenz. Was wird geloggt, was wird dem Nutzer offenbart, wie werden Policy-Entscheidungen auf Anfrage erklärt. Regulatoren und Kunden fragen beide das.

Warum sie geschrieben sein muss.

Eine Policy in jemandes Kopf ist ein Vibe. Eine geschriebene Policy ist eine Spec, die Engineers implementieren und Tester verifizieren können. Der Akt des Schreibens zwingt das Team, die Edge-Cases zu konfrontieren — was tut das System, wenn der Nutzer juristischen Rat anfragt, den es nicht geben darf? Wenn der Modell-Output technisch valide, aber tonal falsch ist? Wenn zwei verschiedene Regulierungen in entgegengesetzte Richtungen zeigen? Erst geschrieben; zweitens implementiert; drittens getestet.

Die Policy lebt in der Eval-Harness.

Jede Policy-Klausel produziert mindestens eine Fixture: ein adversarialer Input, der die Regel triggern sollte, und die erwartete Antwort. Die Eval-Harness fährt diese Fixtures auf jedem Release. Eine Policy-Klausel ohne Fixture ist aspirativ, nicht durchgesetzt.

Häufige Fragen.

Was ist eine KI-Guardrail-Policy?
Eine KI-Guardrail-Policy ist die geschriebene Spezifikation dessen, was ein KI-System verweigern, validieren und eskalieren muss. Sie ist das Dokument, das der deterministische Guardrail-Code durchsetzt und die Eval-Harness testet — typischerweise vier Sektionen: Refusal-Kategorien, Validierungs-Regeln, Eskalations-Regeln, Audit- und Transparenz-Regeln.
Warum die Policy aufschreiben? Kann der System-Prompt das nicht abdecken?
Weil der System-Prompt eine probabilistische Instruktion ist, die das Modell unter Druck überschreiben kann. Die Policy ist die Source-of-Truth, die der deterministische Guardrail-Code durchsetzt und die Eval-Harness testet. Der Prompt ist eine Implementierung der Policy — kein Ersatz für sie.
Wer besitzt die Guardrail-Policy?
Typischerweise der Product Owner, mit Input von Legal/Compliance und dem Engineering-Lead. Sie zu schreiben ist eine kleine cross-funktionale Übung; sie auf einer Kadenz zu reviewen ist, was sie aktuell hält, während der Workflow expandiert.
Wie verbindet sich die Policy mit Evals?
Jede Policy-Klausel produziert mindestens eine adversariale Fixture in der Eval-Harness. Der erwartete Output der Fixture ist das policy-korrekte Verhalten. Das Regression-Gate scheitert jedes Release, das eine durchgesetzte Policy-Klausel verletzt. Eine Policy-Klausel ohne Fixture ist aspirativ, nicht durchgesetzt.

Englische Fassung: KI-Guardrail-Policy on the EN edition.