Das Token-Budget ist die deklarierte maximale Anzahl Tokens, die ein KI-Workflow pro Request verbrauchen darf — über System-Prompt, retrievten Kontext, Reasoning-Traces und den Output des Modells hinweg. Ein Budget zur Laufzeit zu erzwingen, ist das, was Kosten und Latenz vorhersehbar hält; ohne eines wachsen beide still, bis ein Produktions-Incident sie sichtbar macht.

Warum ein Budget zählt.

  • Kosten. Die meisten Provider rechnen pro Token ab. Ein Workflow ohne Budget kann seine Rechnung über Nacht vervierfachen, wenn eine Retrieval-Änderung mehr Kontext in jeden Prompt schiebt.
  • Latenz. Längere Prompts und Outputs brauchen länger zur Verarbeitung. Ein Workflow mit knappem Budget produziert vorhersehbare p95-Latenz.
  • Qualität. Über einen workload-spezifischen Punkt hinaus reduziert mehr Kontext die Antwort-Qualität aktiv (Lost-in-the-Middle, Retrieval-Noise-Verdünnung). Das Budget erzwingt Kontext-Disziplin.

Wie man eines setzt.

Messen Sie die aktuelle Verbrauchs-Verteilung: Per-Schritt- Token-Counts über mindestens 100 repräsentative Fixtures. Der p95 der Verteilung plus 20% Margin ist ein vernünftiger Startpunkt-Budget. Lassen Sie den Workflow unter dem Budget laufen und trimmen Sie die teuersten Schritte, bis die Eval-Harness an der neuen Decke noch passt.

Am Gateway erzwingen.

Budget-Enforcement passiert am Modell-Gateway, nicht im Application-Code. Das Vercel AI Gateway, OpenRouter und die meisten Provider-SDKs unterstützen Per-Request-Token-Limits. Setzen Sie das Budget dort, damit ein Application-Bug es nicht versehentlich überschreiten kann. Kosten-Regressionen, die von Observability-Traces gefangen werden, lassen sich fast immer auf ein fehlendes Token-Budget zurückführen.

Häufige Fragen.

Was ist ein Token-Budget für einen KI-Workflow?
Ein Token-Budget ist die deklarierte maximale Anzahl Tokens, die ein einzelner KI-Workflow pro Request verbrauchen darf — über System-Prompt, retrievten Kontext, Reasoning und Output zusammen. Am Modell-Gateway erzwungen, hält es Kosten und Latenz vorhersehbar und macht Regressionen in der Kontext-Disziplin sichtbar, bevor sie die Rechnung treffen.
Wie berechne ich das richtige Budget für meinen Workflow?
Messen Sie die Token-Count-Verteilung über mindestens 100 repräsentative Fixtures. Nehmen Sie den p95 dieser Verteilung plus 20% Margin. Lassen Sie den Workflow unter dieser Decke laufen und trimmen Sie die teuersten Schritte (oft das Retrieval-Window, manchmal System-Prompt-Boilerplate), bis die Eval-Harness am neuen Budget noch passt.
Sollte das Budget für jeden Workflow gleich sein?
Nein. Ein Dokument-Summarization-Workflow mit 5k-Token-Inputs hat ein fundamental anderes Budget als ein Short-Reply-Workflow mit 50-Token-Inputs. Setzen Sie Per-Workflow-Budgets, erzwingen Sie jedes am Gateway und behandeln Sie das Budget als Regression-Gate-Metrik in CI, damit Prompt- oder Retrieval-Änderungen, die es sprengen, in PR-Review auftauchen.
Was passiert, wenn ein Request das Budget überschreitet?
Das Gateway lehnt den Call ab, bevor er das Modell erreicht, und gibt einen strukturierten Fehler zurück. Der Refusal-Handler der Application produziert eine nutzer-zugewandte Nachricht und loggt das Event. Das ist vorzuziehen gegenüber der stillen Alternative — einem Runaway-Request, der das Zehnfache des erwarteten Betrags kostet, bevor er fertig wird.

Englische Fassung: Token-Budget on the EN edition.