Ist semantisches Caching dasselbe wie Prompt-Caching?

Nein. Prompt-Caching (Anthropic, OpenAI) reusedt den vom Modell berechneten Key-Value-State für einen identischen Prompt-Prefix, um Arbeit auf Modell-Seite zu sparen. Semantisches Caching überspringt den Modellaufruf komplett, indem es eine gespeicherte Antwort für eine embedding-ähnliche Anfrage bedient. Sie sind komplementär — nutzen Sie beide.

Wann sollte ich keinen semantischen Cache nutzen?

Workloads, wo jede Anfrage genuin einzigartig ist (kreatives Schreiben, ad-hoc-Analyse), Workloads, wo dieselbe Anfrage je nach Per-User-Kontext, den das Embedding nicht erfasst, unterschiedliche Antworten produzieren sollte, oder Workloads, wo die Knowledge-Base schneller aktualisiert, als Cache-Invalidierung mithalten kann.

Welchen Schwellenwert sollte ich setzen?

Starten Sie bei Cosinus-Ähnlichkeit 0.95–0.97 und messen Sie sowohl False-Positive-Rate (falsche gecachte Antwort bedient) als auch Hit-Rate gegen die Eval-Harness. Senken Sie den Schwellenwert, wenn die Hit-Rate fürs Budget-Ziel zu niedrig ist; heben Sie ihn, wenn Sie halluzinierte Cache-Antworten im QA-Review sehen.

Semantischer Cache · Morvion Glossar

Ein semantischer Cache speichert vergangene Prompt-Antwort- Paare und bedient neue Requests aus dem Cache, wenn das Embedding des eingehenden Requests einem gespeicherten ausreichend nahe ist. Der Modellaufruf wird komplett übersprungen. Gut gemacht senkt ein semantischer Cache KI-Kosten und p95-Latenz um 40–70% auf Workloads, wo Nutzer Variationen derselben Sache fragen.

Wann er sich auszahlt.

Workloads mit hoher Query-Duplizierung: Customer-Support-FAQ, Dokumentations-Q&A, Produkt-Suche, interne Knowledge-Assistenten. Wenn Ihre Top-100-Anfragen über ein Drittel des Traffics ausmachen, ist semantisches Caching fast immer ein Netto-Gewinn.

Anatomie.

Eingehende Anfrage embedden. Dasselbe Embedding-Modell wie für Retrieval funktioniert.
Nearest-Neighbor-Lookup im Vektor-Index des Caches, mit striktem Similarity-Schwellenwert (typischerweise 0.95+).
Bedienen bei Hit, sonst Modell aufrufen und das neue (Embedding, Anfrage, Antwort)-Tupel speichern.
Invalidieren bei Wissens-Änderungen. Jede gecachte Antwort, die an aktualisierte Dokumente gekoppelt ist, muss evicted werden.

Häufige Gotchas.

Schwellenwert zu niedrig → False Positives (falsche gecachte Antwort bedient). Schwellenwert zu hoch → Cache trifft selten. Die Eval-Harness misst beide Fehlerraten, und der Schwellenwert wird gegen den Workload getunt. Cache-Invalidierung bei Wissens-Änderungen ist der zweit-schwierigste Teil von semantischem Caching, nach Schwellenwert-Tuning.

Häufige Fragen.

Was ist ein semantischer Cache?: Ein semantischer Cache speichert vergangene Prompt-Antwort-Paare und bedient neue Requests aus dem Cache, wenn das Embedding des neuen Requests einem gespeicherten ausreichend nahe ist. Der Modellaufruf wird übersprungen. Gut gemacht senkt er Kosten und p95-Latenz um 40–70% auf Workloads mit hoher Query-Duplizierung.
Ist semantisches Caching dasselbe wie Prompt-Caching?: Nein. Prompt-Caching (Anthropic, OpenAI) reusedt den vom Modell berechneten Key-Value-State für einen identischen Prompt-Prefix, um Arbeit auf Modell-Seite zu sparen. Semantisches Caching überspringt den Modellaufruf komplett, indem es eine gespeicherte Antwort für eine embedding-ähnliche Anfrage bedient. Sie sind komplementär — nutzen Sie beide.
Wann sollte ich keinen semantischen Cache nutzen?: Workloads, wo jede Anfrage genuin einzigartig ist (kreatives Schreiben, ad-hoc-Analyse), Workloads, wo dieselbe Anfrage je nach Per-User-Kontext, den das Embedding nicht erfasst, unterschiedliche Antworten produzieren sollte, oder Workloads, wo die Knowledge-Base schneller aktualisiert, als Cache-Invalidierung mithalten kann.
Welchen Schwellenwert sollte ich setzen?: Starten Sie bei Cosinus-Ähnlichkeit 0.95–0.97 und messen Sie sowohl False-Positive-Rate (falsche gecachte Antwort bedient) als auch Hit-Rate gegen die Eval-Harness. Senken Sie den Schwellenwert, wenn die Hit-Rate fürs Budget-Ziel zu niedrig ist; heben Sie ihn, wenn Sie halluzinierte Cache-Antworten im QA-Review sehen.

Englische Fassung: Semantischer Cache on the EN edition.

Semantischer Cache

Wann er sich auszahlt.

Anatomie.

Häufige Gotchas.

Häufige Fragen.

Intelligente Systeme & KI-Infrastruktur

Weiter im Glossar.

KI-Infrastruktur

Eval-Harness

Regression Gate

RAG (Retrieval-Augmented Generation)

Model Context Protocol (MCP)

Agent Tool Use

LLM-Guardrails

Vektor-Index

Strukturierte Ausgabe

Prompt Injection

Observability-Traces

Agent-Handoff

Retrieval-Rerank

KI-Observability

Multi-Agent-Workflow

Embedding-Modell

Semantische Suche

Vektor-Datenbank

Fine-Tuning

Halluzination

Chain-of-Thought

Function Calling

Agentic Search

Embedding-Raum

Context-Window

Prompt Engineering

Vektor-Suche

Token-Budget

Faithfulness

Cross-Encoder

Modell-Router

KI-Kostenkontrolle

Modell-Destillation

Safety-Rails

KI-Agent

CRM-Intelligenz

Document Intelligence

Eval-Driven KI

Discovery Sprint

Digital Operating Layer

Immersive Website

Hospitality-Website

Marktplatz-Plattform

Business Intelligence Dashboard

Echtzeit-Dashboard

Kunden-Portal

Agent-Memory

Strukturierte Extraktion

KI-Evaluations-Framework

Retrieval-Qualität

KI-Guardrail-Policy

Eval-Fixture

Eval-Rubrik

KI-Incident

Agent-Orchestrierung

Eval-Versionierung

Modell-Fallback

Fein-granulares Routing

KI-Policy-Versionskontrolle