Was ist ein Context-Window?

Das Context-Window ist die maximale Anzahl Tokens, die ein Sprach-Modell in einem einzelnen Call verarbeiten kann — der System-Prompt, die Konversations-Historie, der retrievte Kontext und die Antwort selbst teilen sich dieses Budget. Es zu überschreiten, trunkiert oder lehnt den Call ab.

Sollte ich immer das längste verfügbare Context-Window nutzen?

Nein. Längerer Kontext kostet mehr pro Call, und Qualität degradiert oft past ~50k wegen Lost-in-the-Middle. Für RAG spezifisch: auf die top 10 Chunks reranken schlägt 100 Chunks in einen Long-Context-Call zu kippen. Grosse Windows sind ein Werkzeug, keine Strategie.

Was ist «Lost in the Middle»?

Ein gut dokumentiertes Phänomen, bei dem Sprach-Modelle zuverlässig unter-aufmerksam gegenüber Information sind, die in die Mitte langer Kontexte platziert wird. Am ausgeprägtesten past 50k Tokens. Die praktische Implikation: vertrauen Sie dem Modell nicht, eine Nadel im Heuhaufen zu finden — geben Sie ihm die Nadel mit minimalem Heu.

Context-Window · Morvion Glossar

Das Context-Window ist die maximale Anzahl Tokens, die ein Sprach-Modell in einem einzelnen Call lesen und reasonen kann. Alles im Call — System-Prompt, Konversations-Historie, retrievter Kontext und die Antwort selbst — muss reinpassen. Das Window zu überschreiten, trunkiert oder lehnt den Call ab.

Stand 2026.

200k Tokens ist der praktische Boden für produktions-grade Modelle (Claude, GPT-5). Die Frontier dehnt sich bis ~2M (Gemini 1.5/2.0), aber die Qualität degradiert past ~100k bei den meisten Workloads unabhängig vom beworbenen Limit. Die ehrliche Planungs-Zahl ist 100k nutzbar, nicht das Headline-Maximum.

Lost in the Middle.

Past ~50k Tokens ignorieren Modelle zuverlässig Information, die in die Mitte des Kontexts platziert wurde (das «Lost in the Middle»-Phänomen, seit 2023 dokumentiert). Für RAG spezifisch bedeutet das: 100 retrievte Chunks in den Prompt zu kippen ist schlechter als auf die top 10 zu reranken und die zu konkatenieren. Mehr Kontext past der Relevanz-Frontier ist negativer Wert.

Häufige Fragen.

Was ist ein Context-Window?: Das Context-Window ist die maximale Anzahl Tokens, die ein Sprach-Modell in einem einzelnen Call verarbeiten kann — der System-Prompt, die Konversations-Historie, der retrievte Kontext und die Antwort selbst teilen sich dieses Budget. Es zu überschreiten, trunkiert oder lehnt den Call ab.
Wie gross sind Context-Windows 2026?: 200k Tokens ist der praktische Boden für produktions-grade Modelle (Claude, GPT-5). Gemini 1.5/2.0 bewirbt bis zu ~2M. Aber die Qualität degradiert past ~100k bei den meisten Workloads unabhängig vom beworbenen Limit. Die ehrliche Planungs-Zahl ist 100k nutzbar, nicht das Headline-Maximum.
Sollte ich immer das längste verfügbare Context-Window nutzen?: Nein. Längerer Kontext kostet mehr pro Call, und Qualität degradiert oft past ~50k wegen Lost-in-the-Middle. Für RAG spezifisch: auf die top 10 Chunks reranken schlägt 100 Chunks in einen Long-Context-Call zu kippen. Grosse Windows sind ein Werkzeug, keine Strategie.
Was ist «Lost in the Middle»?: Ein gut dokumentiertes Phänomen, bei dem Sprach-Modelle zuverlässig unter-aufmerksam gegenüber Information sind, die in die Mitte langer Kontexte platziert wird. Am ausgeprägtesten past 50k Tokens. Die praktische Implikation: vertrauen Sie dem Modell nicht, eine Nadel im Heuhaufen zu finden — geben Sie ihm die Nadel mit minimalem Heu.

Englische Fassung: Context-Window on the EN edition.

Context-Window

Stand 2026.

Lost in the Middle.

Verwandte Konzepte.

Häufige Fragen.

Intelligente Systeme & KI-Infrastruktur

Weiter im Glossar.

KI-Infrastruktur

Eval-Harness

Regression Gate

RAG (Retrieval-Augmented Generation)

Model Context Protocol (MCP)

Agent Tool Use

LLM-Guardrails

Vektor-Index

Strukturierte Ausgabe

Prompt Injection

Observability-Traces

Agent-Handoff

Retrieval-Rerank

KI-Observability

Multi-Agent-Workflow

Embedding-Modell

Semantische Suche

Vektor-Datenbank

Fine-Tuning

Halluzination

Chain-of-Thought

Function Calling

Agentic Search

Embedding-Raum

Prompt Engineering

Vektor-Suche

Token-Budget

Semantischer Cache

Faithfulness

Cross-Encoder

Modell-Router

KI-Kostenkontrolle

Modell-Destillation

Safety-Rails

KI-Agent

CRM-Intelligenz

Document Intelligence

Eval-Driven KI

Discovery Sprint

Digital Operating Layer

Immersive Website

Hospitality-Website

Marktplatz-Plattform

Business Intelligence Dashboard

Echtzeit-Dashboard

Kunden-Portal

Agent-Memory

Strukturierte Extraktion

KI-Evaluations-Framework

Retrieval-Qualität

KI-Guardrail-Policy

Eval-Fixture

Eval-Rubrik

KI-Incident

Agent-Orchestrierung

Eval-Versionierung

Modell-Fallback

Fein-granulares Routing

KI-Policy-Versionskontrolle