Was ist fein-granulares Routing?

Fein-granulares Routing ist das produktive Muster, ein unterschiedliches Modell für jeden Schritt in einem Workflow zu picken statt eines einzelnen Modells pro Request. Günstige Schritte laufen auf kleinen schnellen Modellen; teure Schritte laufen auf grossen Modellen. Die Kosten-Verteilung matched die Schwierigkeits-Verteilung des Workflows.

Wie unterscheidet sich fein-granulares Routing von einem Modell-Router?

Ein Modell-Router pickt ein Modell pro Request basierend auf Anfrage-Schwierigkeit. Fein-granulares Routing pickt ein Modell pro Schritt innerhalb eines einzelnen Workflows. Beide Schichten können koexistieren; viele produktive Systeme nutzen den Router auf Request-Ebene und fein-granulares Routing innerhalb von Multi-Step-Workflows.

Welche Kosten-Einsparungen sind realistisch?

Auf Workflows mit gemischter Schritt-Schwierigkeit (die meisten agentischen Workflows) senkt fein-granulares Routing Modell-Spend um 40–70% gegenüber jeden Schritt auf einem grossen Modell zu laufen. Die Ersparnisse hängen von der Schwierigkeits-Verteilung ab; Workflows mit einem harten Schritt und neun günstigen profitieren am meisten.

Wie halten wir Schritt-Qualität hoch unter fein-granularem Routing?

Per-Step-Eval. Scoren Sie jeden Schritt gegen seine eigene Rubrik auf einem gelabelten Fixture-Set. Das kleinste Modell, das noch die Rubrik passt, gewinnt. Die Eval-Harness hält die Eskalations-Rate sichtbar; ohne sie degradiert fein-granulares Routing still und die Ersparnisse verschwinden in Retry-Kosten.

Fein-granulares Routing · Morvion Glossar

Fein-granulares Routing

Fein-granulares Routing ist das produktive Muster, unterschiedliche Teile desselben Workflows an unterschiedliche Modelle zu dispatchen — klein/schnell für günstige Schritte, gross/teuer nur für die Schritte, die es brauchen — sodass die Kosten-Verteilung der Schwierigkeits-Verteilung entspricht.

Fein-granulares Routing ist das produktive Muster, bei dem jeder Schritt in einem Workflow sein eigenes Modell pickt. Ein Retrieval-Summarisierungs-Schritt, der nur 5k Tokens Kontext komprimiert, läuft auf einem kleinen schnellen Modell. Der Reasoning-Schritt, der die nächste Aktion entscheidet, läuft auf einem grossen Modell. Wo Modell-Routing ein Modell pro Request pickt, pickt fein-granulares Routing eines pro Schritt.

Warum Per-Step zählt.

Ein typischer agentischer Workflow läuft 4–10 Modellaufrufe pro Request. Der günstigste und der teuerste Call unterscheiden sich oft um 30× in Kosten. Jeden Schritt zum kleinsten Modell zu routen, das noch seine Rubrik passt, senkt Gesamt-Spend dramatisch — ohne die Qualität des Schritts zu senken, der tatsächlich das grosse Modell braucht.

Wie man jeden Schritt sized.

Per-Step-Eval. Das Fixture-Set scored jeden Schritt unabhängig. Das kleinste Modell, das die Per-Step-Rubrik hits, gewinnt.
Confidence-Eskalation. Günstige Schritte laufen ein schnelles Modell und self-reporten Confidence; unter Schwelle, eskalieren zu einem grösseren Modell. Die Eval hält die Eskalations-Rate ehrlich.
Latenz-Budget pro Schritt. Long-Context-Schritte und Reasoning-Schritte haben unterschiedliche Latenz- Budgets. Modell-Wahl respektiert sowohl Qualität als auch Budget.

Fallstricke.

Der grösste Fehler ist, jeden Schritt gleich zu behandeln und Gross-Modell-Preis für Klein-Modell-Arbeit zu zahlen. Der zweite ist, zu aggressiv zu eskalieren (jeder günstige Schritt retryt auf dem grossen Modell, sodass die Ersparnisse verschwinden). Die Eval-Harness, mit Per-Step- Qualität und -Kosten beide gescored, ist das, was beide Fehler vom stillen Compounden abhält.

Häufige Fragen.

Was ist fein-granulares Routing?: Fein-granulares Routing ist das produktive Muster, ein unterschiedliches Modell für jeden Schritt in einem Workflow zu picken statt eines einzelnen Modells pro Request. Günstige Schritte laufen auf kleinen schnellen Modellen; teure Schritte laufen auf grossen Modellen. Die Kosten-Verteilung matched die Schwierigkeits-Verteilung des Workflows.
Wie unterscheidet sich fein-granulares Routing von einem Modell-Router?: Ein Modell-Router pickt ein Modell pro Request basierend auf Anfrage-Schwierigkeit. Fein-granulares Routing pickt ein Modell pro Schritt innerhalb eines einzelnen Workflows. Beide Schichten können koexistieren; viele produktive Systeme nutzen den Router auf Request-Ebene und fein-granulares Routing innerhalb von Multi-Step-Workflows.
Welche Kosten-Einsparungen sind realistisch?: Auf Workflows mit gemischter Schritt-Schwierigkeit (die meisten agentischen Workflows) senkt fein-granulares Routing Modell-Spend um 40–70% gegenüber jeden Schritt auf einem grossen Modell zu laufen. Die Ersparnisse hängen von der Schwierigkeits-Verteilung ab; Workflows mit einem harten Schritt und neun günstigen profitieren am meisten.
Wie halten wir Schritt-Qualität hoch unter fein-granularem Routing?: Per-Step-Eval. Scoren Sie jeden Schritt gegen seine eigene Rubrik auf einem gelabelten Fixture-Set. Das kleinste Modell, das noch die Rubrik passt, gewinnt. Die Eval-Harness hält die Eskalations-Rate sichtbar; ohne sie degradiert fein-granulares Routing still und die Ersparnisse verschwinden in Retry-Kosten.

Englische Fassung: Fein-granulares Routing on the EN edition.

Fein-granulares Routing

Warum Per-Step zählt.

Wie man jeden Schritt sized.

Fallstricke.

Häufige Fragen.

Intelligente Systeme & KI-Infrastruktur

Weiter im Glossar.

KI-Infrastruktur

Eval-Harness

Regression Gate

RAG (Retrieval-Augmented Generation)

Model Context Protocol (MCP)

Agent Tool Use

LLM-Guardrails

Vektor-Index

Strukturierte Ausgabe

Prompt Injection

Observability-Traces

Agent-Handoff

Retrieval-Rerank

KI-Observability

Multi-Agent-Workflow

Embedding-Modell

Semantische Suche

Vektor-Datenbank

Fine-Tuning

Halluzination

Chain-of-Thought

Function Calling

Agentic Search

Embedding-Raum

Context-Window

Prompt Engineering

Vektor-Suche

Token-Budget

Semantischer Cache

Faithfulness

Cross-Encoder

Modell-Router

KI-Kostenkontrolle

Modell-Destillation

Safety-Rails

KI-Agent

CRM-Intelligenz

Document Intelligence

Eval-Driven KI

Discovery Sprint

Digital Operating Layer

Immersive Website

Hospitality-Website

Marktplatz-Plattform

Business Intelligence Dashboard

Echtzeit-Dashboard

Kunden-Portal

Agent-Memory

Strukturierte Extraktion

KI-Evaluations-Framework

Retrieval-Qualität

KI-Guardrail-Policy

Eval-Fixture

Eval-Rubrik

KI-Incident

Agent-Orchestrierung

Eval-Versionierung

Modell-Fallback

KI-Policy-Versionskontrolle