Fein-granulares Routing ist das produktive Muster, bei dem jeder Schritt in einem Workflow sein eigenes Modell pickt. Ein Retrieval-Summarisierungs-Schritt, der nur 5k Tokens Kontext komprimiert, läuft auf einem kleinen schnellen Modell. Der Reasoning-Schritt, der die nächste Aktion entscheidet, läuft auf einem grossen Modell. Wo Modell-Routing ein Modell pro Request pickt, pickt fein-granulares Routing eines pro Schritt.

Warum Per-Step zählt.

Ein typischer agentischer Workflow läuft 4–10 Modellaufrufe pro Request. Der günstigste und der teuerste Call unterscheiden sich oft um 30× in Kosten. Jeden Schritt zum kleinsten Modell zu routen, das noch seine Rubrik passt, senkt Gesamt-Spend dramatisch — ohne die Qualität des Schritts zu senken, der tatsächlich das grosse Modell braucht.

Wie man jeden Schritt sized.

  • Per-Step-Eval. Das Fixture-Set scored jeden Schritt unabhängig. Das kleinste Modell, das die Per-Step-Rubrik hits, gewinnt.
  • Confidence-Eskalation. Günstige Schritte laufen ein schnelles Modell und self-reporten Confidence; unter Schwelle, eskalieren zu einem grösseren Modell. Die Eval hält die Eskalations-Rate ehrlich.
  • Latenz-Budget pro Schritt. Long-Context-Schritte und Reasoning-Schritte haben unterschiedliche Latenz- Budgets. Modell-Wahl respektiert sowohl Qualität als auch Budget.

Fallstricke.

Der grösste Fehler ist, jeden Schritt gleich zu behandeln und Gross-Modell-Preis für Klein-Modell-Arbeit zu zahlen. Der zweite ist, zu aggressiv zu eskalieren (jeder günstige Schritt retryt auf dem grossen Modell, sodass die Ersparnisse verschwinden). Die Eval-Harness, mit Per-Step- Qualität und -Kosten beide gescored, ist das, was beide Fehler vom stillen Compounden abhält.

Häufige Fragen.

Was ist fein-granulares Routing?
Fein-granulares Routing ist das produktive Muster, ein unterschiedliches Modell für jeden Schritt in einem Workflow zu picken statt eines einzelnen Modells pro Request. Günstige Schritte laufen auf kleinen schnellen Modellen; teure Schritte laufen auf grossen Modellen. Die Kosten-Verteilung matched die Schwierigkeits-Verteilung des Workflows.
Wie unterscheidet sich fein-granulares Routing von einem Modell-Router?
Ein Modell-Router pickt ein Modell pro Request basierend auf Anfrage-Schwierigkeit. Fein-granulares Routing pickt ein Modell pro Schritt innerhalb eines einzelnen Workflows. Beide Schichten können koexistieren; viele produktive Systeme nutzen den Router auf Request-Ebene und fein-granulares Routing innerhalb von Multi-Step-Workflows.
Welche Kosten-Einsparungen sind realistisch?
Auf Workflows mit gemischter Schritt-Schwierigkeit (die meisten agentischen Workflows) senkt fein-granulares Routing Modell-Spend um 40–70% gegenüber jeden Schritt auf einem grossen Modell zu laufen. Die Ersparnisse hängen von der Schwierigkeits-Verteilung ab; Workflows mit einem harten Schritt und neun günstigen profitieren am meisten.
Wie halten wir Schritt-Qualität hoch unter fein-granularem Routing?
Per-Step-Eval. Scoren Sie jeden Schritt gegen seine eigene Rubrik auf einem gelabelten Fixture-Set. Das kleinste Modell, das noch die Rubrik passt, gewinnt. Die Eval-Harness hält die Eskalations-Rate sichtbar; ohne sie degradiert fein-granulares Routing still und die Ersparnisse verschwinden in Retry-Kosten.

Englische Fassung: Fein-granulares Routing on the EN edition.