Ein Cross-Encoder ist eine Modell-Architektur, die für Retrieval-Rerank genutzt wird. Anders als ein Bi-Encoder (der Anfrage und Dokument unabhängig embeddet), nimmt ein Cross-Encoder Anfrage und Kandidaten-Passage als einzigen joint Input und produziert einen einzigen Relevanz-Score pro Paar. Langsamer, aber viel genauer.

Cross-Encoder vs. Bi-Encoder.

  • Bi-Encoder (das Embedding-Modell in der Vektor-Suche): embeddet Anfrage und Dokument unabhängig. Schnell — Embeddings können zur Index-Zeit vorberechnet werden. Verlustbehaftet — unabhängiges Encoding verliert Interaktions-Signal.
  • Cross-Encoder (der Reranker): nimmt (Anfrage, Dokument) als joint Input, produziert einen Score. Langsam — ein Modellaufruf pro Paar, nicht vorberechenbar. Genau — Joint-Attention erfasst fein-granulare Relevanz.

Wann was nutzen.

Das Zweistufen-Muster nutzt beide: Bi-Encoder fürs schnelle initiale Retrieval (die top 50–100 Kandidaten), dann Cross-Encoder zum Reranken auf die top 5–15. Das kombiniert die Geschwindigkeit von Bi-Encoder-Retrieval mit der Genauigkeit von Cross-Encoder-Scoring. Es ist die produktive Standard-Antwort.

Gängige Cross-Encoder-Modelle.

BGE-Reranker, Cohere Rerank (gehostet), Voyage Rerank (gehostet), mxbai-rerank, ms-marco-MiniLM-Cross-Encoder (klassisch). Die Wahl tauscht Kosten gegen Genauigkeit; die Eval-Harness wählt den richtigen für Ihre spezifische Anfrage-Verteilung.

Häufige Fragen.

Was ist ein Cross-Encoder?
Ein Cross-Encoder ist ein neuronales Modell, das eine Anfrage und eine Kandidaten-Passage als einzigen joint Input nimmt und einen Relevanz-Score für das Paar produziert. Er wird im Rerank-Schritt produktiver Retrieval-Pipelines genutzt. Langsamer als Bi-Encoder-Embedding-Lookup, aber 10–20 Punkte genauer auf den meisten Benchmarks.
Wann sollte ich einen Cross-Encoder vs. Bi-Encoder nutzen?
Nutzen Sie beide, in Sequenz. Bi-Encoder für die First-Stage-Retrieval (schnell, Embeddings zur Index-Zeit vorberechnet). Cross-Encoder für den Rerank-Schritt über den top-K-Kandidaten (langsam pro Call, aber der Genauigkeits-Gewinn dominiert die marginale Latenz). Dieses Zweistufen-Muster ist die produktive Standard-Antwort.
Wie viel langsamer ist ein Cross-Encoder?
Pro Scoring-Call viel langsamer — das Modell muss einen Forward-Pass auf dem (Anfrage, Dokument)-Paar laufen lassen. In der Praxis fügt das Reranken der top 50 Kandidaten mit einem gehosteten Reranker ~150–300ms zur Pipeline hinzu. Für 95% produktiver RAG-Workflows ist der Latenz-Hit den Genauigkeits-Gewinn wert.
Sind Cross-Encoder-Modelle dasselbe wie LLM-Grader?
Unterschiedliche Formen. Cross-Encoder sind klein (oft <100M Parameter) und geben einen einzigen Skalar-Score pro Paar aus — zweckgebaut für Relevanz. LLM-Grader sind volle Sprach-Modelle, die eine Rubrik lesen und einen Score mit Reasoning produzieren. Cross-Encoder sind schneller und günstiger; LLM-Grader sind flexibler. Unterschiedliche Jobs.

Englische Fassung: Cross-Encoder on the EN edition.