Ein semantischer Cache speichert vergangene Prompt-Antwort- Paare und bedient neue Requests aus dem Cache, wenn das Embedding des eingehenden Requests einem gespeicherten ausreichend nahe ist. Der Modellaufruf wird komplett übersprungen. Gut gemacht senkt ein semantischer Cache KI-Kosten und p95-Latenz um 40–70% auf Workloads, wo Nutzer Variationen derselben Sache fragen.
Wann er sich auszahlt.
Workloads mit hoher Query-Duplizierung: Customer-Support-FAQ, Dokumentations-Q&A, Produkt-Suche, interne Knowledge-Assistenten. Wenn Ihre Top-100-Anfragen über ein Drittel des Traffics ausmachen, ist semantisches Caching fast immer ein Netto-Gewinn.
Anatomie.
- Eingehende Anfrage embedden. Dasselbe Embedding-Modell wie für Retrieval funktioniert.
- Nearest-Neighbor-Lookup im Vektor-Index des Caches, mit striktem Similarity-Schwellenwert (typischerweise 0.95+).
- Bedienen bei Hit, sonst Modell aufrufen und das neue (Embedding, Anfrage, Antwort)-Tupel speichern.
- Invalidieren bei Wissens-Änderungen. Jede gecachte Antwort, die an aktualisierte Dokumente gekoppelt ist, muss evicted werden.
Häufige Gotchas.
Schwellenwert zu niedrig → False Positives (falsche gecachte Antwort bedient). Schwellenwert zu hoch → Cache trifft selten. Die Eval-Harness misst beide Fehlerraten, und der Schwellenwert wird gegen den Workload getunt. Cache-Invalidierung bei Wissens-Änderungen ist der zweit-schwierigste Teil von semantischem Caching, nach Schwellenwert-Tuning.
Häufige Fragen.
- Was ist ein semantischer Cache?
- Ein semantischer Cache speichert vergangene Prompt-Antwort-Paare und bedient neue Requests aus dem Cache, wenn das Embedding des neuen Requests einem gespeicherten ausreichend nahe ist. Der Modellaufruf wird übersprungen. Gut gemacht senkt er Kosten und p95-Latenz um 40–70% auf Workloads mit hoher Query-Duplizierung.
- Ist semantisches Caching dasselbe wie Prompt-Caching?
- Nein. Prompt-Caching (Anthropic, OpenAI) reusedt den vom Modell berechneten Key-Value-State für einen identischen Prompt-Prefix, um Arbeit auf Modell-Seite zu sparen. Semantisches Caching überspringt den Modellaufruf komplett, indem es eine gespeicherte Antwort für eine embedding-ähnliche Anfrage bedient. Sie sind komplementär — nutzen Sie beide.
- Wann sollte ich keinen semantischen Cache nutzen?
- Workloads, wo jede Anfrage genuin einzigartig ist (kreatives Schreiben, ad-hoc-Analyse), Workloads, wo dieselbe Anfrage je nach Per-User-Kontext, den das Embedding nicht erfasst, unterschiedliche Antworten produzieren sollte, oder Workloads, wo die Knowledge-Base schneller aktualisiert, als Cache-Invalidierung mithalten kann.
- Welchen Schwellenwert sollte ich setzen?
- Starten Sie bei Cosinus-Ähnlichkeit 0.95–0.97 und messen Sie sowohl False-Positive-Rate (falsche gecachte Antwort bedient) als auch Hit-Rate gegen die Eval-Harness. Senken Sie den Schwellenwert, wenn die Hit-Rate fürs Budget-Ziel zu niedrig ist; heben Sie ihn, wenn Sie halluzinierte Cache-Antworten im QA-Review sehen.
Englische Fassung: Semantischer Cache on the EN edition.