Das Token-Budget ist die deklarierte maximale Anzahl Tokens, die ein KI-Workflow pro Request verbrauchen darf — über System-Prompt, retrievten Kontext, Reasoning-Traces und den Output des Modells hinweg. Ein Budget zur Laufzeit zu erzwingen, ist das, was Kosten und Latenz vorhersehbar hält; ohne eines wachsen beide still, bis ein Produktions-Incident sie sichtbar macht.
Warum ein Budget zählt.
- Kosten. Die meisten Provider rechnen pro Token ab. Ein Workflow ohne Budget kann seine Rechnung über Nacht vervierfachen, wenn eine Retrieval-Änderung mehr Kontext in jeden Prompt schiebt.
- Latenz. Längere Prompts und Outputs brauchen länger zur Verarbeitung. Ein Workflow mit knappem Budget produziert vorhersehbare p95-Latenz.
- Qualität. Über einen workload-spezifischen Punkt hinaus reduziert mehr Kontext die Antwort-Qualität aktiv (Lost-in-the-Middle, Retrieval-Noise-Verdünnung). Das Budget erzwingt Kontext-Disziplin.
Wie man eines setzt.
Messen Sie die aktuelle Verbrauchs-Verteilung: Per-Schritt- Token-Counts über mindestens 100 repräsentative Fixtures. Der p95 der Verteilung plus 20% Margin ist ein vernünftiger Startpunkt-Budget. Lassen Sie den Workflow unter dem Budget laufen und trimmen Sie die teuersten Schritte, bis die Eval-Harness an der neuen Decke noch passt.
Am Gateway erzwingen.
Budget-Enforcement passiert am Modell-Gateway, nicht im Application-Code. Das Vercel AI Gateway, OpenRouter und die meisten Provider-SDKs unterstützen Per-Request-Token-Limits. Setzen Sie das Budget dort, damit ein Application-Bug es nicht versehentlich überschreiten kann. Kosten-Regressionen, die von Observability-Traces gefangen werden, lassen sich fast immer auf ein fehlendes Token-Budget zurückführen.
Häufige Fragen.
- Was ist ein Token-Budget für einen KI-Workflow?
- Ein Token-Budget ist die deklarierte maximale Anzahl Tokens, die ein einzelner KI-Workflow pro Request verbrauchen darf — über System-Prompt, retrievten Kontext, Reasoning und Output zusammen. Am Modell-Gateway erzwungen, hält es Kosten und Latenz vorhersehbar und macht Regressionen in der Kontext-Disziplin sichtbar, bevor sie die Rechnung treffen.
- Wie berechne ich das richtige Budget für meinen Workflow?
- Messen Sie die Token-Count-Verteilung über mindestens 100 repräsentative Fixtures. Nehmen Sie den p95 dieser Verteilung plus 20% Margin. Lassen Sie den Workflow unter dieser Decke laufen und trimmen Sie die teuersten Schritte (oft das Retrieval-Window, manchmal System-Prompt-Boilerplate), bis die Eval-Harness am neuen Budget noch passt.
- Sollte das Budget für jeden Workflow gleich sein?
- Nein. Ein Dokument-Summarization-Workflow mit 5k-Token-Inputs hat ein fundamental anderes Budget als ein Short-Reply-Workflow mit 50-Token-Inputs. Setzen Sie Per-Workflow-Budgets, erzwingen Sie jedes am Gateway und behandeln Sie das Budget als Regression-Gate-Metrik in CI, damit Prompt- oder Retrieval-Änderungen, die es sprengen, in PR-Review auftauchen.
- Was passiert, wenn ein Request das Budget überschreitet?
- Das Gateway lehnt den Call ab, bevor er das Modell erreicht, und gibt einen strukturierten Fehler zurück. Der Refusal-Handler der Application produziert eine nutzer-zugewandte Nachricht und loggt das Event. Das ist vorzuziehen gegenüber der stillen Alternative — einem Runaway-Request, der das Zehnfache des erwarteten Betrags kostet, bevor er fertig wird.
Englische Fassung: Token-Budget on the EN edition.