Was sind LLM-Guardrails?

LLM-Guardrails sind die deterministische Sicherheitsschicht um ein Sprachmodell — Input-Validierung, Content-Filter, Schema-Enforcement der Ausgabe, Refusal-Handling, Rate-Limits und Tool-Autorisierung. Das Modell ist probabilistisch; die Guardrails sind es nicht. Zusammen machen sie das System vorhersagbar fehlschlagend.

Ist der System-Prompt ein Guardrail?

Nein. Der System-Prompt ist eine probabilistische Anweisung, die das Modell unter adversariellem Druck (Prompt-Injection, Edge-Cases, mehrdeutige Policy) überschreiben kann. Ein Guardrail ist Code, der unabhängig davon läuft, ob das Modell kooperiert oder nicht.

Wer baut die Guardrails — der Anbieter oder das Applikationsteam?

Beide. Anbieter liefern Baseline-Content-Filter und Refusal-Verhalten. Das Applikationsteam baut die workflow-spezifischen Guardrails: Schema-Enforcement, Tool-Autorisierung, Rate-Limits, Custom Policy, Audit-Logging. Die Defaults des Anbieters sind notwendig; sie sind nie ausreichend.

Wie testen wir, dass die Guardrails tatsächlich funktionieren?

Adversarielle Fixtures im Eval-Set: Prompt-Injection-Versuche, Out-of-Scope-Queries, Policy-Verletzungs-Trigger, Schema-brechende Outputs. Die Rubrik bewertet Refusal-Angemessenheit, Filter-Präzision und -Recall, Schema-Einhaltung. Ohne das sind die Guardrails ungeprüftes Theater.

LLM-Guardrails · Morvion Glossar

LLM-Guardrails sind die deterministische Sicherheitsschicht rund um ein Sprachmodell. Das Modell ist eine probabilistische Komponente; die Guardrails sind es nicht. Zusammen erzeugen sie ein System, das Betreiber ausliefern können. Die meisten KI-Produktionsvorfälle sind Guardrail-Versagen, nicht Modell- Versagen.

Die Standard-Guardrail-Schichten.

Input-Validierung. Grössenlimits, Type-Checks, Screening auf Prompt-Injection, bevor der Input das Modell erreicht.
Content-Filter. Inputs und Outputs laufen gegen Klassifikatoren für relevante Richtlinienkategorien. Treffer werden an einen Refusal-Handler weitergeleitet.
Schema-Enforcement der Ausgabe. Strukturierte Outputs werden gegen ein striktes Schema validiert. Ungültige Outputs triggern einen einzelnen Retry und versagen dann sicher.
Refusal-Handler. Wenn das Modell ablehnt oder ein Filter eine Ausgabe blockiert, produziert ein deterministischer Handler die nutzerseitige Nachricht und protokolliert das Ereignis zum Review.
Rate- und Quota-Limits. Pro-Nutzer-, pro-Tenant- und pro-Kosten-Limits verhindern, dass ein einzelner Akteur das Budget oder die Queue ausreisst.
Tool-Autorisierung. Jeder Tool-Aufruf läuft durch die echte Auth-Schicht der Applikation. Das Modell ist nicht die Autorisierungsentscheidung.

Guardrails sind nicht im Prompt.

Ein häufiger Fehler ist es, die Sicherheitsrichtlinie in den System-Prompt zu schreiben und es Guardrail zu nennen. Der Prompt ist eine probabilistische Anweisung, die das Modell unter adversariellem Druck überschreiben kann. Ein Guardrail ist Code, der unabhängig davon läuft, ob das Modell kooperiert oder nicht. Beide Schichten gehören dazu, aber nur die deterministische zählt. Verwandt: Safety-Rails und Prompt-Injection.

Häufige Fragen.

Was sind LLM-Guardrails?: LLM-Guardrails sind die deterministische Sicherheitsschicht um ein Sprachmodell — Input-Validierung, Content-Filter, Schema-Enforcement der Ausgabe, Refusal-Handling, Rate-Limits und Tool-Autorisierung. Das Modell ist probabilistisch; die Guardrails sind es nicht. Zusammen machen sie das System vorhersagbar fehlschlagend.
Ist der System-Prompt ein Guardrail?: Nein. Der System-Prompt ist eine probabilistische Anweisung, die das Modell unter adversariellem Druck (Prompt-Injection, Edge-Cases, mehrdeutige Policy) überschreiben kann. Ein Guardrail ist Code, der unabhängig davon läuft, ob das Modell kooperiert oder nicht.
Wer baut die Guardrails — der Anbieter oder das Applikationsteam?: Beide. Anbieter liefern Baseline-Content-Filter und Refusal-Verhalten. Das Applikationsteam baut die workflow-spezifischen Guardrails: Schema-Enforcement, Tool-Autorisierung, Rate-Limits, Custom Policy, Audit-Logging. Die Defaults des Anbieters sind notwendig; sie sind nie ausreichend.
Wie testen wir, dass die Guardrails tatsächlich funktionieren?: Adversarielle Fixtures im Eval-Set: Prompt-Injection-Versuche, Out-of-Scope-Queries, Policy-Verletzungs-Trigger, Schema-brechende Outputs. Die Rubrik bewertet Refusal-Angemessenheit, Filter-Präzision und -Recall, Schema-Einhaltung. Ohne das sind die Guardrails ungeprüftes Theater.

Englische Fassung: LLM-Guardrails on the EN edition.

LLM-Guardrails

Die Standard-Guardrail-Schichten.

Guardrails sind nicht im Prompt.

Häufige Fragen.

Intelligente Systeme & KI-Infrastruktur

Weiter im Glossar.

KI-Infrastruktur

Eval-Harness

Regression Gate

RAG (Retrieval-Augmented Generation)

Model Context Protocol (MCP)

Agent Tool Use

Vektor-Index

Strukturierte Ausgabe

Prompt Injection

Observability-Traces

Agent-Handoff

Retrieval-Rerank

KI-Observability

Multi-Agent-Workflow

Embedding-Modell

Semantische Suche

Vektor-Datenbank

Fine-Tuning

Halluzination

Chain-of-Thought

Function Calling

Agentic Search

Embedding-Raum

Context-Window

Prompt Engineering

Vektor-Suche

Token-Budget

Semantischer Cache

Faithfulness

Cross-Encoder

Modell-Router

KI-Kostenkontrolle

Modell-Destillation

Safety-Rails

KI-Agent

CRM-Intelligenz

Document Intelligence

Eval-Driven KI

Discovery Sprint

Digital Operating Layer

Immersive Website

Hospitality-Website

Marktplatz-Plattform

Business Intelligence Dashboard

Echtzeit-Dashboard

Kunden-Portal

Agent-Memory

Strukturierte Extraktion

KI-Evaluations-Framework

Retrieval-Qualität

KI-Guardrail-Policy

Eval-Fixture

Eval-Rubrik

KI-Incident

Agent-Orchestrierung

Eval-Versionierung

Modell-Fallback

Fein-granulares Routing

KI-Policy-Versionskontrolle