Faithfulness ist die Eval-Metrik, die misst, ob jeder Claim in der Antwort eines Modells aus dem retrievten Kontext ableitbar ist. Sie ist der kanonische Anti-Halluzinations- Check für jeden RAG-Workflow. Eine faithful Antwort lässt relevante Fakten möglicherweise weg, erfindet aber nie neue.

Wie sie gemessen wird.

Faithfulness wird fast immer LLM-gegradet. Ein Grader-Modell erhält den retrievten Kontext, die Antwort des Modells und eine Rubrik: Für jeden Claim in der Antwort, unterstützt der Kontext ihn? Der Score ist der Anteil der Claims, die bestehen.

Faithfulness vs. Accuracy vs. Coverage.

  • Faithfulness — Sind alle Claims in der Antwort vom Kontext unterstützt?
  • Accuracy — Ist die Antwort in der echten Welt korrekt (unabhängig vom Kontext)?
  • Coverage — Inkludiert die Antwort alle relevanten Fakten, die der Kontext enthielt?

Ein Modell kann perfekt faithful sein (alles trackt zum Kontext), aber falsch (der Kontext war falsch). Faithfulness misst die Disziplin des Modells, nicht die Korrektheit des Systems.

Produktions-Ziele.

Faithfulness ≥ 0.95 ist die Latte für jeden RAG-Workflow, der Endnutzer erreicht. Darunter erfindet das System regelmässig Fakten und der Brand-Cost ist hoch. Faithfulness ist eine enge-Toleranz-Metrik für Regression-Gates: Drop > 0.02 vs. Baseline lässt den Release scheitern.

Häufige Fragen.

Was ist Faithfulness in KI-Evaluation?
Faithfulness ist die Eval-Metrik, die misst, ob jeder Claim in der Antwort eines Modells aus dem retrievten Kontext ableitbar ist. Sie ist der kanonische Anti-Halluzinations-Check für RAG-Workflows. Eine faithful Antwort lässt relevante Fakten möglicherweise weg, erfindet aber nie neue.
Ist Faithfulness dasselbe wie Accuracy?
Nein. Faithfulness fragt «trackt die Antwort zum Kontext?» Accuracy fragt «ist die Antwort in der echten Welt korrekt?» Ein Modell kann perfekt faithful, aber falsch sein (weil der Kontext falsch war), oder zufällig akkurat, aber unfaithful (weil es trotz fehlender Kontext-Unterstützung richtig geraten hat). Produktion braucht beides, aber sie werden separat gemessen.
Wie messe ich Faithfulness?
LLM-gegradet: Ein kleines Grader-Modell erhält den Kontext, die Antwort und eine Rubrik. Für jeden Claim in der Antwort scored es, ob der Kontext ihn unterstützt. Der Anteil unterstützter Claims ist der Faithfulness-Score. Produktions-Ziele sind typischerweise 0.95+, mit einer engen Regression-Gate-Toleranz (≤ 0.02 Drop).
Was, wenn das Modell eine faithful, aber nutzlose Antwort gibt?
Dann ist Ihre Coverage-Metrik zu locker. Faithfulness und Coverage sind komplementär — messen Sie beide. Eine faithful, aber nutzlose Antwort scored hoch auf Faithfulness und niedrig auf Coverage. Die richtigen Release-Gates scoren beide und scheitern, wenn eines droppt.

Englische Fassung: Faithfulness on the EN edition.