Retrieval-Rerank ist der zweite Pass in einer produktiven RAG-Pipeline. Nachdem die Vektor-Suche die top-K-Kandidaten nach Embedding-Ähnlichkeit zurückgegeben hat, bewertet ein kleines Cross-Encoder-Modell jedes (Anfrage, Passage)-Paar direkt und sortiert neu. Die top N nach Rerank sind das, was tatsächlich in den Modell-Prompt gelangt.

Warum Rerank.

Bi-Encoder-Retrieval (das Embedding-Lookup) ist schnell, aber verlustbehaftet. Die Anfrage und das Dokument werden unabhängig embeddet, daher ist der Score approximativ. Ein Cross-Encoder nimmt Anfrage und Passage zusammen als Input und produziert einen einzelnen Relevanz-Score pro Paar. Er ist langsamer (ein Modellaufruf pro Kandidat), aber zehn bis zwanzig Punkte genauer auf den meisten Benchmarks. Das zweistufige Muster ist die produktive Standard-Antwort.

Wie es verdrahtet wird.

  • Vektor-Suche gibt die top 50–100 Kandidaten zurück.
  • Rerank bewertet diese Kandidaten und behält die top 5–15.
  • Generate antwortet ausschliesslich mit den re-rankten top N.

Gängige Rerank-Modelle.

Cohere Rerank, Voyage Rerank, BGE-Reranker (offene Gewichte), mxbai-rerank. Die Wahl tauscht Kosten gegen Qualität; für die meisten produktiven RAGs ist ein gehosteter Reranker bei ~$0.001 pro Anfrage der richtige Startpunkt. Die Eval-Harness misst, welcher Reranker auf der spezifischen Anfrage-Verteilung gewinnt.

Häufige Fragen.

Was ist Retrieval-Rerank?
Retrieval-Rerank ist der zweite Pass über die top-K-Passagen aus der Vektor-Suche. Ein kleines Cross-Encoder-Modell bewertet jedes (Anfrage, Passage)-Paar direkt und sortiert neu, damit die relevantesten Chunks zuerst in den Prompt gelangen. Es ist die produktive Standard-Antwort, um Genauigkeit aus einer RAG-Pipeline zu holen.
Brauche ich einen Reranker, wenn meine Embeddings gut sind?
Fast immer ja. Bi-Encoder-Embeddings sind schnell, bewerten Anfrage und Passage aber unabhängig, was strukturell verlustbehaftet ist. Ein Cross-Encoder nimmt sie zusammen und produziert einen viel besseren Relevanz-Score pro Paar. Produktive RAG-Qualität springt zuverlässig um 10–20 Punkte, wenn ein Reranker hinzugefügt wird.
Was kostet Rerank in Latenz?
Ein Modellaufruf pro Kandidat. Mit 50 Kandidaten und einem gehosteten Reranker bei ~80ms pro Batch fügen Sie ~150–300ms zur Pipeline hinzu. Der Genauigkeitsgewinn rechtfertigt das fast immer, aber wenn das Latenz-Budget brutal ist, kann top-K auf 20–30 Kandidaten verschärft werden.
Welchen Reranker soll ich nutzen?
Für gehostet: Cohere Rerank und Voyage Rerank sind beide produktionsreif. Für selbst-gehostet: BGE-Reranker und mxbai-rerank sind offen-gewichtig und konkurrenzfähig. Die Eval-Harness wählt den richtigen für Ihre Anfrage-Verteilung; defaulten Sie auf einen gehosteten Reranker, bis Sie einen Grund haben, selbst zu hosten.

Englische Fassung: Retrieval-Rerank on the EN edition.