Ist Faithfulness dasselbe wie Accuracy?

Nein. Faithfulness fragt «trackt die Antwort zum Kontext?» Accuracy fragt «ist die Antwort in der echten Welt korrekt?» Ein Modell kann perfekt faithful, aber falsch sein (weil der Kontext falsch war), oder zufällig akkurat, aber unfaithful (weil es trotz fehlender Kontext-Unterstützung richtig geraten hat). Produktion braucht beides, aber sie werden separat gemessen.

Wie messe ich Faithfulness?

LLM-gegradet: Ein kleines Grader-Modell erhält den Kontext, die Antwort und eine Rubrik. Für jeden Claim in der Antwort scored es, ob der Kontext ihn unterstützt. Der Anteil unterstützter Claims ist der Faithfulness-Score. Produktions-Ziele sind typischerweise 0.95+, mit einer engen Regression-Gate-Toleranz (≤ 0.02 Drop).

Was, wenn das Modell eine faithful, aber nutzlose Antwort gibt?

Dann ist Ihre Coverage-Metrik zu locker. Faithfulness und Coverage sind komplementär — messen Sie beide. Eine faithful, aber nutzlose Antwort scored hoch auf Faithfulness und niedrig auf Coverage. Die richtigen Release-Gates scoren beide und scheitern, wenn eines droppt.

Faithfulness · Morvion Glossar

Faithfulness ist die Eval-Metrik, die misst, ob jeder Claim in der Antwort eines Modells aus dem retrievten Kontext ableitbar ist. Sie ist der kanonische Anti-Halluzinations- Check für jeden RAG-Workflow. Eine faithful Antwort lässt relevante Fakten möglicherweise weg, erfindet aber nie neue.

Wie sie gemessen wird.

Faithfulness wird fast immer LLM-gegradet. Ein Grader-Modell erhält den retrievten Kontext, die Antwort des Modells und eine Rubrik: Für jeden Claim in der Antwort, unterstützt der Kontext ihn? Der Score ist der Anteil der Claims, die bestehen.

Faithfulness vs. Accuracy vs. Coverage.

Faithfulness — Sind alle Claims in der Antwort vom Kontext unterstützt?
Accuracy — Ist die Antwort in der echten Welt korrekt (unabhängig vom Kontext)?
Coverage — Inkludiert die Antwort alle relevanten Fakten, die der Kontext enthielt?

Ein Modell kann perfekt faithful sein (alles trackt zum Kontext), aber falsch (der Kontext war falsch). Faithfulness misst die Disziplin des Modells, nicht die Korrektheit des Systems.

Produktions-Ziele.

Faithfulness ≥ 0.95 ist die Latte für jeden RAG-Workflow, der Endnutzer erreicht. Darunter erfindet das System regelmässig Fakten und der Brand-Cost ist hoch. Faithfulness ist eine enge-Toleranz-Metrik für Regression-Gates: Drop > 0.02 vs. Baseline lässt den Release scheitern.

Häufige Fragen.

Was ist Faithfulness in KI-Evaluation?: Faithfulness ist die Eval-Metrik, die misst, ob jeder Claim in der Antwort eines Modells aus dem retrievten Kontext ableitbar ist. Sie ist der kanonische Anti-Halluzinations-Check für RAG-Workflows. Eine faithful Antwort lässt relevante Fakten möglicherweise weg, erfindet aber nie neue.
Ist Faithfulness dasselbe wie Accuracy?: Nein. Faithfulness fragt «trackt die Antwort zum Kontext?» Accuracy fragt «ist die Antwort in der echten Welt korrekt?» Ein Modell kann perfekt faithful, aber falsch sein (weil der Kontext falsch war), oder zufällig akkurat, aber unfaithful (weil es trotz fehlender Kontext-Unterstützung richtig geraten hat). Produktion braucht beides, aber sie werden separat gemessen.
Wie messe ich Faithfulness?: LLM-gegradet: Ein kleines Grader-Modell erhält den Kontext, die Antwort und eine Rubrik. Für jeden Claim in der Antwort scored es, ob der Kontext ihn unterstützt. Der Anteil unterstützter Claims ist der Faithfulness-Score. Produktions-Ziele sind typischerweise 0.95+, mit einer engen Regression-Gate-Toleranz (≤ 0.02 Drop).
Was, wenn das Modell eine faithful, aber nutzlose Antwort gibt?: Dann ist Ihre Coverage-Metrik zu locker. Faithfulness und Coverage sind komplementär — messen Sie beide. Eine faithful, aber nutzlose Antwort scored hoch auf Faithfulness und niedrig auf Coverage. Die richtigen Release-Gates scoren beide und scheitern, wenn eines droppt.

Englische Fassung: Faithfulness on the EN edition.

Faithfulness

Wie sie gemessen wird.

Faithfulness vs. Accuracy vs. Coverage.

Produktions-Ziele.

Häufige Fragen.

Intelligente Systeme & KI-Infrastruktur

Weiter im Glossar.

KI-Infrastruktur

Eval-Harness

Regression Gate

RAG (Retrieval-Augmented Generation)

Model Context Protocol (MCP)

Agent Tool Use

LLM-Guardrails

Vektor-Index

Strukturierte Ausgabe

Prompt Injection

Observability-Traces

Agent-Handoff

Retrieval-Rerank

KI-Observability

Multi-Agent-Workflow

Embedding-Modell

Semantische Suche

Vektor-Datenbank

Fine-Tuning

Halluzination

Chain-of-Thought

Function Calling

Agentic Search

Embedding-Raum

Context-Window

Prompt Engineering

Vektor-Suche

Token-Budget

Semantischer Cache

Cross-Encoder

Modell-Router

KI-Kostenkontrolle

Modell-Destillation

Safety-Rails

KI-Agent

CRM-Intelligenz

Document Intelligence

Eval-Driven KI

Discovery Sprint

Digital Operating Layer

Immersive Website

Hospitality-Website

Marktplatz-Plattform

Business Intelligence Dashboard

Echtzeit-Dashboard

Kunden-Portal

Agent-Memory

Strukturierte Extraktion

KI-Evaluations-Framework

Retrieval-Qualität

KI-Guardrail-Policy

Eval-Fixture

Eval-Rubrik

KI-Incident

Agent-Orchestrierung

Eval-Versionierung

Modell-Fallback

Fein-granulares Routing

KI-Policy-Versionskontrolle