LLM-Guardrails sind die deterministische Sicherheitsschicht rund um ein Sprachmodell. Das Modell ist eine probabilistische Komponente; die Guardrails sind es nicht. Zusammen erzeugen sie ein System, das Betreiber ausliefern können. Die meisten KI-Produktionsvorfälle sind Guardrail-Versagen, nicht Modell- Versagen.

Die Standard-Guardrail-Schichten.

  • Input-Validierung. Grössenlimits, Type-Checks, Screening auf Prompt-Injection, bevor der Input das Modell erreicht.
  • Content-Filter. Inputs und Outputs laufen gegen Klassifikatoren für relevante Richtlinienkategorien. Treffer werden an einen Refusal-Handler weitergeleitet.
  • Schema-Enforcement der Ausgabe. Strukturierte Outputs werden gegen ein striktes Schema validiert. Ungültige Outputs triggern einen einzelnen Retry und versagen dann sicher.
  • Refusal-Handler. Wenn das Modell ablehnt oder ein Filter eine Ausgabe blockiert, produziert ein deterministischer Handler die nutzerseitige Nachricht und protokolliert das Ereignis zum Review.
  • Rate- und Quota-Limits. Pro-Nutzer-, pro-Tenant- und pro-Kosten-Limits verhindern, dass ein einzelner Akteur das Budget oder die Queue ausreisst.
  • Tool-Autorisierung. Jeder Tool-Aufruf läuft durch die echte Auth-Schicht der Applikation. Das Modell ist nicht die Autorisierungsentscheidung.

Guardrails sind nicht im Prompt.

Ein häufiger Fehler ist es, die Sicherheitsrichtlinie in den System-Prompt zu schreiben und es Guardrail zu nennen. Der Prompt ist eine probabilistische Anweisung, die das Modell unter adversariellem Druck überschreiben kann. Ein Guardrail ist Code, der unabhängig davon läuft, ob das Modell kooperiert oder nicht. Beide Schichten gehören dazu, aber nur die deterministische zählt. Verwandt: Safety-Rails und Prompt-Injection.

Häufige Fragen.

Was sind LLM-Guardrails?
LLM-Guardrails sind die deterministische Sicherheitsschicht um ein Sprachmodell — Input-Validierung, Content-Filter, Schema-Enforcement der Ausgabe, Refusal-Handling, Rate-Limits und Tool-Autorisierung. Das Modell ist probabilistisch; die Guardrails sind es nicht. Zusammen machen sie das System vorhersagbar fehlschlagend.
Ist der System-Prompt ein Guardrail?
Nein. Der System-Prompt ist eine probabilistische Anweisung, die das Modell unter adversariellem Druck (Prompt-Injection, Edge-Cases, mehrdeutige Policy) überschreiben kann. Ein Guardrail ist Code, der unabhängig davon läuft, ob das Modell kooperiert oder nicht.
Wer baut die Guardrails — der Anbieter oder das Applikationsteam?
Beide. Anbieter liefern Baseline-Content-Filter und Refusal-Verhalten. Das Applikationsteam baut die workflow-spezifischen Guardrails: Schema-Enforcement, Tool-Autorisierung, Rate-Limits, Custom Policy, Audit-Logging. Die Defaults des Anbieters sind notwendig; sie sind nie ausreichend.
Wie testen wir, dass die Guardrails tatsächlich funktionieren?
Adversarielle Fixtures im Eval-Set: Prompt-Injection-Versuche, Out-of-Scope-Queries, Policy-Verletzungs-Trigger, Schema-brechende Outputs. Die Rubrik bewertet Refusal-Angemessenheit, Filter-Präzision und -Recall, Schema-Einhaltung. Ohne das sind die Guardrails ungeprüftes Theater.

Englische Fassung: LLM-Guardrails on the EN edition.