RAG (Retrieval-Augmented Generation) ist das kanonische Muster zur Erdung eines Sprachmodells in privaten oder domänenspezifischen Daten: Zur Abfragezeit holt das System einen kleinen Satz relevanter Passagen aus einer Wissensbasis und fügt sie in den Modell-Prompt ein, damit das Modell aus Ihren Daten antworten kann, ohne je darauf trainiert worden zu sein.

Die drei Schritte.

  1. Retrieve. Die Anfrage wird embeddet und für die Suche nach den top-K relevantesten Chunks aus einem Vektor-Index benutzt, oft kombiniert mit BM25-Keyword-Suche, um lexikalische Treffer einzufangen.
  2. Rerank. Die zurückgegebenen Kandidaten werden von einem kleinen Cross-Encoder-Modell neu sortiert, das jedes (Anfrage, Passage)-Paar direkt bewertet. Die top N nach Rerank kommen in den Prompt.
  3. Generate. Das Modell antwortet ausschliesslich auf Basis der inkludierten Passagen, mit expliziter Anweisung abzulehnen, falls der Kontext keine Antwort stützt.

Warum RAG statt Fine-Tuning.

Fine-Tuning brennt Fakten ins Modell ein. RAG injiziert Fakten zur Inferenz-Zeit. Letzteres ist günstiger zu aktualisieren, einfacher zu auditieren (Sie sehen, welche Passagen die Antwort produziert haben) und vermeidet erneutes Training, wenn sich die Wissensbasis ändert. Für die meisten Unternehmens-Wissens- Tasks ist RAG der Default und Fine-Tuning ist für Stil- oder Format-Anpassung reserviert.

Häufige Failure-Modes.

  • Chunking zu grob. Lange Chunks verwässern das Embedding-Signal und der relevante Satz ertrinkt in umliegendem Rauschen. Produktive Systeme landen bei 200 bis 800 Tokens pro Chunk mit Overlap.
  • Kein Reranker. Top-K aus Vektor-Suche allein verfehlt die richtige Antwort oft genug, dass produktive Systeme eine Cross-Encoder-Rerank-Schicht brauchen.
  • Das Modell improvisieren lassen. Ohne explizite Refuse-on-Missing-Context-Anweisung füllt das Modell Lücken mit plausibel klingenden Erfindungen. Die meisten RAG- Halluzinationen sind dieses Failure-Mode.

Häufige Fragen.

Was ist Retrieval-Augmented Generation in einfachen Worten?
Es ist ein Muster, bei dem das System vor dem Beantworten einer Frage zuerst relevante Passagen aus einer Wissensbasis nachschlägt und sie in den Prompt einfügt. Das Modell antwortet dann mit diesen Passagen. So kann die KI mit Ihren privaten Daten arbeiten — interne Docs, Produktinfos, Kundendatensätze — ohne dass das Modell darauf trainiert werden muss.
Wann RAG vs. Fine-Tuning?
RAG, wenn das Wissen sich häufig ändert, wenn Sie Quellen zitieren müssen oder wenn Sie nachvollziehbare Provenienz wollen. Fine-Tuning, wenn Sie einen konsistenten Stil, ein Format oder ein Verhaltensmuster brauchen, das das Modell internalisieren muss. Die meisten Unternehmens-Wissens-Arbeit ist ein RAG-Problem; die meiste Stil- und Tonalitätsarbeit ist ein Fine-Tuning-Problem.
Was ist der Unterschied zwischen Retrieval und Suche?
Suche ist, was Menschen tun; Retrieval ist, was RAG tut. Suche optimiert für einen Menschen, der Ergebnisse liest. Retrieval optimiert für ein LLM, das Ergebnisse konsumiert: top-K relevante Chunks, gerankt, mit ausreichend Kontext, damit das Modell akkurat antworten kann.
Ab wann lohnt sich RAG?
Unter ein paar hundert kurzen Dokumenten schlägt ein langes Context-Window oder einfache Keyword-Suche RAG. Über ein paar tausend wird RAG notwendig. Dazwischen hängt es von Update-Frequenz und Spezifität der Queries ab.

Englische Fassung: RAG (Retrieval-Augmented Generation) on the EN edition.