Was ist Retrieval-Rerank?

Retrieval-Rerank ist der zweite Pass über die top-K-Passagen aus der Vektor-Suche. Ein kleines Cross-Encoder-Modell bewertet jedes (Anfrage, Passage)-Paar direkt und sortiert neu, damit die relevantesten Chunks zuerst in den Prompt gelangen. Es ist die produktive Standard-Antwort, um Genauigkeit aus einer RAG-Pipeline zu holen.

Brauche ich einen Reranker, wenn meine Embeddings gut sind?

Fast immer ja. Bi-Encoder-Embeddings sind schnell, bewerten Anfrage und Passage aber unabhängig, was strukturell verlustbehaftet ist. Ein Cross-Encoder nimmt sie zusammen und produziert einen viel besseren Relevanz-Score pro Paar. Produktive RAG-Qualität springt zuverlässig um 10–20 Punkte, wenn ein Reranker hinzugefügt wird.

Was kostet Rerank in Latenz?

Ein Modellaufruf pro Kandidat. Mit 50 Kandidaten und einem gehosteten Reranker bei ~80ms pro Batch fügen Sie ~150–300ms zur Pipeline hinzu. Der Genauigkeitsgewinn rechtfertigt das fast immer, aber wenn das Latenz-Budget brutal ist, kann top-K auf 20–30 Kandidaten verschärft werden.

Welchen Reranker soll ich nutzen?

Für gehostet: Cohere Rerank und Voyage Rerank sind beide produktionsreif. Für selbst-gehostet: BGE-Reranker und mxbai-rerank sind offen-gewichtig und konkurrenzfähig. Die Eval-Harness wählt den richtigen für Ihre Anfrage-Verteilung; defaulten Sie auf einen gehosteten Reranker, bis Sie einen Grund haben, selbst zu hosten.

Retrieval-Rerank · Morvion Glossar

Retrieval-Rerank ist der zweite Pass in einer produktiven RAG-Pipeline. Nachdem die Vektor-Suche die top-K-Kandidaten nach Embedding-Ähnlichkeit zurückgegeben hat, bewertet ein kleines Cross-Encoder-Modell jedes (Anfrage, Passage)-Paar direkt und sortiert neu. Die top N nach Rerank sind das, was tatsächlich in den Modell-Prompt gelangt.

Warum Rerank.

Bi-Encoder-Retrieval (das Embedding-Lookup) ist schnell, aber verlustbehaftet. Die Anfrage und das Dokument werden unabhängig embeddet, daher ist der Score approximativ. Ein Cross-Encoder nimmt Anfrage und Passage zusammen als Input und produziert einen einzelnen Relevanz-Score pro Paar. Er ist langsamer (ein Modellaufruf pro Kandidat), aber zehn bis zwanzig Punkte genauer auf den meisten Benchmarks. Das zweistufige Muster ist die produktive Standard-Antwort.

Wie es verdrahtet wird.

Vektor-Suche gibt die top 50–100 Kandidaten zurück.
Rerank bewertet diese Kandidaten und behält die top 5–15.
Generate antwortet ausschliesslich mit den re-rankten top N.

Gängige Rerank-Modelle.

Cohere Rerank, Voyage Rerank, BGE-Reranker (offene Gewichte), mxbai-rerank. Die Wahl tauscht Kosten gegen Qualität; für die meisten produktiven RAGs ist ein gehosteter Reranker bei ~$0.001 pro Anfrage der richtige Startpunkt. Die Eval-Harness misst, welcher Reranker auf der spezifischen Anfrage-Verteilung gewinnt.

Häufige Fragen.

Was ist Retrieval-Rerank?: Retrieval-Rerank ist der zweite Pass über die top-K-Passagen aus der Vektor-Suche. Ein kleines Cross-Encoder-Modell bewertet jedes (Anfrage, Passage)-Paar direkt und sortiert neu, damit die relevantesten Chunks zuerst in den Prompt gelangen. Es ist die produktive Standard-Antwort, um Genauigkeit aus einer RAG-Pipeline zu holen.
Brauche ich einen Reranker, wenn meine Embeddings gut sind?: Fast immer ja. Bi-Encoder-Embeddings sind schnell, bewerten Anfrage und Passage aber unabhängig, was strukturell verlustbehaftet ist. Ein Cross-Encoder nimmt sie zusammen und produziert einen viel besseren Relevanz-Score pro Paar. Produktive RAG-Qualität springt zuverlässig um 10–20 Punkte, wenn ein Reranker hinzugefügt wird.
Was kostet Rerank in Latenz?: Ein Modellaufruf pro Kandidat. Mit 50 Kandidaten und einem gehosteten Reranker bei ~80ms pro Batch fügen Sie ~150–300ms zur Pipeline hinzu. Der Genauigkeitsgewinn rechtfertigt das fast immer, aber wenn das Latenz-Budget brutal ist, kann top-K auf 20–30 Kandidaten verschärft werden.
Welchen Reranker soll ich nutzen?: Für gehostet: Cohere Rerank und Voyage Rerank sind beide produktionsreif. Für selbst-gehostet: BGE-Reranker und mxbai-rerank sind offen-gewichtig und konkurrenzfähig. Die Eval-Harness wählt den richtigen für Ihre Anfrage-Verteilung; defaulten Sie auf einen gehosteten Reranker, bis Sie einen Grund haben, selbst zu hosten.

Englische Fassung: Retrieval-Rerank on the EN edition.

Retrieval-Rerank

Warum Rerank.

Wie es verdrahtet wird.

Gängige Rerank-Modelle.

Häufige Fragen.

Intelligente Systeme & KI-Infrastruktur

Weiter im Glossar.

KI-Infrastruktur

Eval-Harness

Regression Gate

RAG (Retrieval-Augmented Generation)

Model Context Protocol (MCP)

Agent Tool Use

LLM-Guardrails

Vektor-Index

Strukturierte Ausgabe

Prompt Injection

Observability-Traces

Agent-Handoff

KI-Observability

Multi-Agent-Workflow

Embedding-Modell

Semantische Suche

Vektor-Datenbank

Fine-Tuning

Halluzination

Chain-of-Thought

Function Calling

Agentic Search

Embedding-Raum

Context-Window

Prompt Engineering

Vektor-Suche

Token-Budget

Semantischer Cache

Faithfulness

Cross-Encoder

Modell-Router

KI-Kostenkontrolle

Modell-Destillation

Safety-Rails

KI-Agent

CRM-Intelligenz

Document Intelligence

Eval-Driven KI

Discovery Sprint

Digital Operating Layer

Immersive Website

Hospitality-Website

Marktplatz-Plattform

Business Intelligence Dashboard

Echtzeit-Dashboard

Kunden-Portal

Agent-Memory

Strukturierte Extraktion

KI-Evaluations-Framework

Retrieval-Qualität

KI-Guardrail-Policy

Eval-Fixture

Eval-Rubrik

KI-Incident

Agent-Orchestrierung

Eval-Versionierung

Modell-Fallback

Fein-granulares Routing

KI-Policy-Versionskontrolle