Was ist ein Token-Budget für einen KI-Workflow?

Ein Token-Budget ist die deklarierte maximale Anzahl Tokens, die ein einzelner KI-Workflow pro Request verbrauchen darf — über System-Prompt, retrievten Kontext, Reasoning und Output zusammen. Am Modell-Gateway erzwungen, hält es Kosten und Latenz vorhersehbar und macht Regressionen in der Kontext-Disziplin sichtbar, bevor sie die Rechnung treffen.

Wie berechne ich das richtige Budget für meinen Workflow?

Messen Sie die Token-Count-Verteilung über mindestens 100 repräsentative Fixtures. Nehmen Sie den p95 dieser Verteilung plus 20% Margin. Lassen Sie den Workflow unter dieser Decke laufen und trimmen Sie die teuersten Schritte (oft das Retrieval-Window, manchmal System-Prompt-Boilerplate), bis die Eval-Harness am neuen Budget noch passt.

Sollte das Budget für jeden Workflow gleich sein?

Nein. Ein Dokument-Summarization-Workflow mit 5k-Token-Inputs hat ein fundamental anderes Budget als ein Short-Reply-Workflow mit 50-Token-Inputs. Setzen Sie Per-Workflow-Budgets, erzwingen Sie jedes am Gateway und behandeln Sie das Budget als Regression-Gate-Metrik in CI, damit Prompt- oder Retrieval-Änderungen, die es sprengen, in PR-Review auftauchen.

Was passiert, wenn ein Request das Budget überschreitet?

Das Gateway lehnt den Call ab, bevor er das Modell erreicht, und gibt einen strukturierten Fehler zurück. Der Refusal-Handler der Application produziert eine nutzer-zugewandte Nachricht und loggt das Event. Das ist vorzuziehen gegenüber der stillen Alternative — einem Runaway-Request, der das Zehnfache des erwarteten Betrags kostet, bevor er fertig wird.

Token-Budget · Morvion Glossar

Das Token-Budget ist die deklarierte maximale Anzahl Tokens, die ein KI-Workflow pro Request verbrauchen darf — über System-Prompt, retrievten Kontext, Reasoning-Traces und den Output des Modells hinweg. Ein Budget zur Laufzeit zu erzwingen, ist das, was Kosten und Latenz vorhersehbar hält; ohne eines wachsen beide still, bis ein Produktions-Incident sie sichtbar macht.

Warum ein Budget zählt.

Kosten. Die meisten Provider rechnen pro Token ab. Ein Workflow ohne Budget kann seine Rechnung über Nacht vervierfachen, wenn eine Retrieval-Änderung mehr Kontext in jeden Prompt schiebt.
Latenz. Längere Prompts und Outputs brauchen länger zur Verarbeitung. Ein Workflow mit knappem Budget produziert vorhersehbare p95-Latenz.
Qualität. Über einen workload-spezifischen Punkt hinaus reduziert mehr Kontext die Antwort-Qualität aktiv (Lost-in-the-Middle, Retrieval-Noise-Verdünnung). Das Budget erzwingt Kontext-Disziplin.

Wie man eines setzt.

Messen Sie die aktuelle Verbrauchs-Verteilung: Per-Schritt- Token-Counts über mindestens 100 repräsentative Fixtures. Der p95 der Verteilung plus 20% Margin ist ein vernünftiger Startpunkt-Budget. Lassen Sie den Workflow unter dem Budget laufen und trimmen Sie die teuersten Schritte, bis die Eval-Harness an der neuen Decke noch passt.

Am Gateway erzwingen.

Budget-Enforcement passiert am Modell-Gateway, nicht im Application-Code. Das Vercel AI Gateway, OpenRouter und die meisten Provider-SDKs unterstützen Per-Request-Token-Limits. Setzen Sie das Budget dort, damit ein Application-Bug es nicht versehentlich überschreiten kann. Kosten-Regressionen, die von Observability-Traces gefangen werden, lassen sich fast immer auf ein fehlendes Token-Budget zurückführen.

Häufige Fragen.

Was ist ein Token-Budget für einen KI-Workflow?: Ein Token-Budget ist die deklarierte maximale Anzahl Tokens, die ein einzelner KI-Workflow pro Request verbrauchen darf — über System-Prompt, retrievten Kontext, Reasoning und Output zusammen. Am Modell-Gateway erzwungen, hält es Kosten und Latenz vorhersehbar und macht Regressionen in der Kontext-Disziplin sichtbar, bevor sie die Rechnung treffen.
Wie berechne ich das richtige Budget für meinen Workflow?: Messen Sie die Token-Count-Verteilung über mindestens 100 repräsentative Fixtures. Nehmen Sie den p95 dieser Verteilung plus 20% Margin. Lassen Sie den Workflow unter dieser Decke laufen und trimmen Sie die teuersten Schritte (oft das Retrieval-Window, manchmal System-Prompt-Boilerplate), bis die Eval-Harness am neuen Budget noch passt.
Sollte das Budget für jeden Workflow gleich sein?: Nein. Ein Dokument-Summarization-Workflow mit 5k-Token-Inputs hat ein fundamental anderes Budget als ein Short-Reply-Workflow mit 50-Token-Inputs. Setzen Sie Per-Workflow-Budgets, erzwingen Sie jedes am Gateway und behandeln Sie das Budget als Regression-Gate-Metrik in CI, damit Prompt- oder Retrieval-Änderungen, die es sprengen, in PR-Review auftauchen.
Was passiert, wenn ein Request das Budget überschreitet?: Das Gateway lehnt den Call ab, bevor er das Modell erreicht, und gibt einen strukturierten Fehler zurück. Der Refusal-Handler der Application produziert eine nutzer-zugewandte Nachricht und loggt das Event. Das ist vorzuziehen gegenüber der stillen Alternative — einem Runaway-Request, der das Zehnfache des erwarteten Betrags kostet, bevor er fertig wird.

Englische Fassung: Token-Budget on the EN edition.

Token-Budget

Warum ein Budget zählt.

Wie man eines setzt.

Am Gateway erzwingen.

Häufige Fragen.

Intelligente Systeme & KI-Infrastruktur

Weiter im Glossar.

KI-Infrastruktur

Eval-Harness

Regression Gate

RAG (Retrieval-Augmented Generation)

Model Context Protocol (MCP)

Agent Tool Use

LLM-Guardrails

Vektor-Index

Strukturierte Ausgabe

Prompt Injection

Observability-Traces

Agent-Handoff

Retrieval-Rerank

KI-Observability

Multi-Agent-Workflow

Embedding-Modell

Semantische Suche

Vektor-Datenbank

Fine-Tuning

Halluzination

Chain-of-Thought

Function Calling

Agentic Search

Embedding-Raum

Context-Window

Prompt Engineering

Vektor-Suche

Semantischer Cache

Faithfulness

Cross-Encoder

Modell-Router

KI-Kostenkontrolle

Modell-Destillation

Safety-Rails

KI-Agent

CRM-Intelligenz

Document Intelligence

Eval-Driven KI

Discovery Sprint

Digital Operating Layer

Immersive Website

Hospitality-Website

Marktplatz-Plattform

Business Intelligence Dashboard

Echtzeit-Dashboard

Kunden-Portal

Agent-Memory

Strukturierte Extraktion

KI-Evaluations-Framework

Retrieval-Qualität

KI-Guardrail-Policy

Eval-Fixture

Eval-Rubrik

KI-Incident

Agent-Orchestrierung

Eval-Versionierung

Modell-Fallback

Fein-granulares Routing

KI-Policy-Versionskontrolle