Was ist Retrieval-Augmented Generation in einfachen Worten?

Es ist ein Muster, bei dem das System vor dem Beantworten einer Frage zuerst relevante Passagen aus einer Wissensbasis nachschlägt und sie in den Prompt einfügt. Das Modell antwortet dann mit diesen Passagen. So kann die KI mit Ihren privaten Daten arbeiten — interne Docs, Produktinfos, Kundendatensätze — ohne dass das Modell darauf trainiert werden muss.

Wann RAG vs. Fine-Tuning?

RAG, wenn das Wissen sich häufig ändert, wenn Sie Quellen zitieren müssen oder wenn Sie nachvollziehbare Provenienz wollen. Fine-Tuning, wenn Sie einen konsistenten Stil, ein Format oder ein Verhaltensmuster brauchen, das das Modell internalisieren muss. Die meisten Unternehmens-Wissens-Arbeit ist ein RAG-Problem; die meiste Stil- und Tonalitätsarbeit ist ein Fine-Tuning-Problem.

Was ist der Unterschied zwischen Retrieval und Suche?

Suche ist, was Menschen tun; Retrieval ist, was RAG tut. Suche optimiert für einen Menschen, der Ergebnisse liest. Retrieval optimiert für ein LLM, das Ergebnisse konsumiert: top-K relevante Chunks, gerankt, mit ausreichend Kontext, damit das Modell akkurat antworten kann.

Ab wann lohnt sich RAG?

Unter ein paar hundert kurzen Dokumenten schlägt ein langes Context-Window oder einfache Keyword-Suche RAG. Über ein paar tausend wird RAG notwendig. Dazwischen hängt es von Update-Frequenz und Spezifität der Queries ab.

RAG (Retrieval-Augmented Generation) · Morvion Glossar

RAG (Retrieval-Augmented Generation) ist das kanonische Muster zur Erdung eines Sprachmodells in privaten oder domänenspezifischen Daten: Zur Abfragezeit holt das System einen kleinen Satz relevanter Passagen aus einer Wissensbasis und fügt sie in den Modell-Prompt ein, damit das Modell aus Ihren Daten antworten kann, ohne je darauf trainiert worden zu sein.

Die drei Schritte.

Retrieve. Die Anfrage wird embeddet und für die Suche nach den top-K relevantesten Chunks aus einem Vektor-Index benutzt, oft kombiniert mit BM25-Keyword-Suche, um lexikalische Treffer einzufangen.
Rerank. Die zurückgegebenen Kandidaten werden von einem kleinen Cross-Encoder-Modell neu sortiert, das jedes (Anfrage, Passage)-Paar direkt bewertet. Die top N nach Rerank kommen in den Prompt.
Generate. Das Modell antwortet ausschliesslich auf Basis der inkludierten Passagen, mit expliziter Anweisung abzulehnen, falls der Kontext keine Antwort stützt.

Warum RAG statt Fine-Tuning.

Fine-Tuning brennt Fakten ins Modell ein. RAG injiziert Fakten zur Inferenz-Zeit. Letzteres ist günstiger zu aktualisieren, einfacher zu auditieren (Sie sehen, welche Passagen die Antwort produziert haben) und vermeidet erneutes Training, wenn sich die Wissensbasis ändert. Für die meisten Unternehmens-Wissens- Tasks ist RAG der Default und Fine-Tuning ist für Stil- oder Format-Anpassung reserviert.

Häufige Failure-Modes.

Chunking zu grob. Lange Chunks verwässern das Embedding-Signal und der relevante Satz ertrinkt in umliegendem Rauschen. Produktive Systeme landen bei 200 bis 800 Tokens pro Chunk mit Overlap.
Kein Reranker. Top-K aus Vektor-Suche allein verfehlt die richtige Antwort oft genug, dass produktive Systeme eine Cross-Encoder-Rerank-Schicht brauchen.
Das Modell improvisieren lassen. Ohne explizite Refuse-on-Missing-Context-Anweisung füllt das Modell Lücken mit plausibel klingenden Erfindungen. Die meisten RAG- Halluzinationen sind dieses Failure-Mode.

Häufige Fragen.

Was ist Retrieval-Augmented Generation in einfachen Worten?: Es ist ein Muster, bei dem das System vor dem Beantworten einer Frage zuerst relevante Passagen aus einer Wissensbasis nachschlägt und sie in den Prompt einfügt. Das Modell antwortet dann mit diesen Passagen. So kann die KI mit Ihren privaten Daten arbeiten — interne Docs, Produktinfos, Kundendatensätze — ohne dass das Modell darauf trainiert werden muss.
Wann RAG vs. Fine-Tuning?: RAG, wenn das Wissen sich häufig ändert, wenn Sie Quellen zitieren müssen oder wenn Sie nachvollziehbare Provenienz wollen. Fine-Tuning, wenn Sie einen konsistenten Stil, ein Format oder ein Verhaltensmuster brauchen, das das Modell internalisieren muss. Die meisten Unternehmens-Wissens-Arbeit ist ein RAG-Problem; die meiste Stil- und Tonalitätsarbeit ist ein Fine-Tuning-Problem.
Was ist der Unterschied zwischen Retrieval und Suche?: Suche ist, was Menschen tun; Retrieval ist, was RAG tut. Suche optimiert für einen Menschen, der Ergebnisse liest. Retrieval optimiert für ein LLM, das Ergebnisse konsumiert: top-K relevante Chunks, gerankt, mit ausreichend Kontext, damit das Modell akkurat antworten kann.
Ab wann lohnt sich RAG?: Unter ein paar hundert kurzen Dokumenten schlägt ein langes Context-Window oder einfache Keyword-Suche RAG. Über ein paar tausend wird RAG notwendig. Dazwischen hängt es von Update-Frequenz und Spezifität der Queries ab.

Englische Fassung: RAG (Retrieval-Augmented Generation) on the EN edition.

RAG (Retrieval-Augmented Generation)

Die drei Schritte.

Warum RAG statt Fine-Tuning.

Häufige Failure-Modes.

Häufige Fragen.

Intelligente Systeme & KI-Infrastruktur

Weiter im Glossar.

KI-Infrastruktur

Eval-Harness

Regression Gate

Model Context Protocol (MCP)

Agent Tool Use

LLM-Guardrails

Vektor-Index

Strukturierte Ausgabe

Prompt Injection

Observability-Traces

Agent-Handoff

Retrieval-Rerank

KI-Observability

Multi-Agent-Workflow

Embedding-Modell

Semantische Suche

Vektor-Datenbank

Fine-Tuning

Halluzination

Chain-of-Thought

Function Calling

Agentic Search

Embedding-Raum

Context-Window

Prompt Engineering

Vektor-Suche

Token-Budget

Semantischer Cache

Faithfulness

Cross-Encoder

Modell-Router

KI-Kostenkontrolle

Modell-Destillation

Safety-Rails

KI-Agent

CRM-Intelligenz

Document Intelligence

Eval-Driven KI

Discovery Sprint

Digital Operating Layer

Immersive Website

Hospitality-Website

Marktplatz-Plattform

Business Intelligence Dashboard

Echtzeit-Dashboard

Kunden-Portal

Agent-Memory

Strukturierte Extraktion

KI-Evaluations-Framework

Retrieval-Qualität

KI-Guardrail-Policy

Eval-Fixture

Eval-Rubrik

KI-Incident

Agent-Orchestrierung

Eval-Versionierung

Modell-Fallback

Fein-granulares Routing

KI-Policy-Versionskontrolle