Das Context-Window ist die maximale Anzahl Tokens, die ein Sprach-Modell in einem einzelnen Call lesen und reasonen kann. Alles im Call — System-Prompt, Konversations-Historie, retrievter Kontext und die Antwort selbst — muss reinpassen. Das Window zu überschreiten, trunkiert oder lehnt den Call ab.
Stand 2026.
200k Tokens ist der praktische Boden für produktions-grade Modelle (Claude, GPT-5). Die Frontier dehnt sich bis ~2M (Gemini 1.5/2.0), aber die Qualität degradiert past ~100k bei den meisten Workloads unabhängig vom beworbenen Limit. Die ehrliche Planungs-Zahl ist 100k nutzbar, nicht das Headline-Maximum.
Lost in the Middle.
Past ~50k Tokens ignorieren Modelle zuverlässig Information, die in die Mitte des Kontexts platziert wurde (das «Lost in the Middle»-Phänomen, seit 2023 dokumentiert). Für RAG spezifisch bedeutet das: 100 retrievte Chunks in den Prompt zu kippen ist schlechter als auf die top 10 zu reranken und die zu konkatenieren. Mehr Kontext past der Relevanz-Frontier ist negativer Wert.
Verwandte Konzepte.
Context-Window-Planung ist das praktische Gesicht von Token-Budget. Wenn ein Workflow das Budget übersteigt, ist die Antwort selten «auf ein grösseres Window wechseln» — es ist Reranking, Summarization oder Aufteilung in mehrere Calls. Siehe auch RAG für das kanonische Muster, das Context-Windows klein hält.
Häufige Fragen.
- Was ist ein Context-Window?
- Das Context-Window ist die maximale Anzahl Tokens, die ein Sprach-Modell in einem einzelnen Call verarbeiten kann — der System-Prompt, die Konversations-Historie, der retrievte Kontext und die Antwort selbst teilen sich dieses Budget. Es zu überschreiten, trunkiert oder lehnt den Call ab.
- Wie gross sind Context-Windows 2026?
- 200k Tokens ist der praktische Boden für produktions-grade Modelle (Claude, GPT-5). Gemini 1.5/2.0 bewirbt bis zu ~2M. Aber die Qualität degradiert past ~100k bei den meisten Workloads unabhängig vom beworbenen Limit. Die ehrliche Planungs-Zahl ist 100k nutzbar, nicht das Headline-Maximum.
- Sollte ich immer das längste verfügbare Context-Window nutzen?
- Nein. Längerer Kontext kostet mehr pro Call, und Qualität degradiert oft past ~50k wegen Lost-in-the-Middle. Für RAG spezifisch: auf die top 10 Chunks reranken schlägt 100 Chunks in einen Long-Context-Call zu kippen. Grosse Windows sind ein Werkzeug, keine Strategie.
- Was ist «Lost in the Middle»?
- Ein gut dokumentiertes Phänomen, bei dem Sprach-Modelle zuverlässig unter-aufmerksam gegenüber Information sind, die in die Mitte langer Kontexte platziert wird. Am ausgeprägtesten past 50k Tokens. Die praktische Implikation: vertrauen Sie dem Modell nicht, eine Nadel im Heuhaufen zu finden — geben Sie ihm die Nadel mit minimalem Heu.
Englische Fassung: Context-Window on the EN edition.