Ein Modell-Router ist ein kleiner Klassifikator, der jede eingehende Anfrage inspiziert und sie an das richtige Modell oder den richtigen Workflow dispatched. Einfache Anfragen routen zu einem kleinen schnellen Modell; komplexe Anfragen routen zu einem grossen Modell. Der Router selbst läuft in Millisekunden und kostet pro Call quasi nichts — kann aber die Gesamt-KI-Kosten um 60–80% auf Workloads mit gemischter Schwierigkeit senken.

Routing-Signale.

  • Anfrage-Länge und -Komplexität — kurze faktische Anfragen gehen oft zu einem kleinen Modell; langes Multi-Step-Reasoning zu einem grossen.
  • Benötigte Tools — Anfragen, die Code-Execution, Web-Zugang oder strukturierte Planung brauchen, routen zu einem agentischen Workflow mit Tool Use; Anfragen, die keines brauchen, routen zu einem Flat-Call.
  • Konfidenz-basierte Eskalation — das kleine Modell antwortet zuerst; wenn seine selbst-berichtete Konfidenz (oder ein schneller Judge-Score) unter dem Schwellenwert liegt, eskaliere zum grossen Modell.

Anatomie.

Der Router ist typischerweise ein kleiner Klassifikator — Haiku-Class für LLM-basiertes Routing, oder ein fine-getunter Cross-Encoder für günstigeren Dispatch. Inputs: die Anfrage plus Session-Metadaten. Output: eines von N Route-Labels, mit Konfidenz. Routen mappen zu spezifischen Workflows in der Orchestration-Schicht.

Warum dieses Muster gewinnt.

Produktive KI-Workloads sind bimodal: Einfache Anfragen dominieren das Volumen, harte Anfragen dominieren die Kosten. Ohne Routing zahlt jede Anfrage Gross-Modell-Preis für Klein-Modell-Arbeit. Mit Routing matched die Kosten-Verteilung die Schwierigkeits-Verteilung. Auf den meisten Workloads, die wir auditiert haben, zahlt ein Router seine Implementierungs- Kosten innerhalb des ersten Monats zurück.

Häufige Fragen.

Was ist ein Modell-Router?
Ein Modell-Router ist ein kleiner Klassifikator, der jede eingehende Anfrage inspiziert und sie an das richtige Modell oder den richtigen Workflow dispatched — klein/schnelles Modell für einfache Anfragen, gross/teures Modell nur, wenn die Aufgabe es verlangt. Er senkt Kosten um 60–80% auf Workloads mit gemischter Anfrage-Schwierigkeit.
Wie akkurat muss der Router sein?
Über 95% Routing-Genauigkeit auf einem repräsentativen Fixture-Set. Darunter beginnt Fehl-Routing sichtbare Qualitäts-Regressionen auf dem Klein-Modell-Pfad zu produzieren. Die Eval-Harness misst sowohl Routing-Genauigkeit als auch die Downstream-Qualität auf jedem Route, und das Regression-Gate scheitert bei jedem.
Soll ich den Router bauen oder einen gehosteten nutzen?
Gehostete Router (Martian, RouteLLM, Vercel AI Gateway) sind ein guter Startpunkt. Sie decken die gängigen Muster ab. Bauen Sie Ihren eigenen, wenn Sie workflow-spezifische Routen haben (z.B. Dispatch zu internen Agenten) oder strikte Kosten-Ziele, die custom Optimierung brauchen. Die Build-or-Buy-Entscheidung ist eine reguläre Morvion-Engagement-Frage.
Was ist der Unterschied zwischen einem Modell-Router und einem Agent-Dispatcher?
Dieselbe Idee, anderer Scope. Ein Modell-Router pickt zwischen Modellen für einen einzelnen LLM-Call. Ein Agent-Dispatcher pickt zwischen Agenten (oder Workflows) — von denen jeder viele Modell-Calls machen kann. Der Modell-Router ist eine Schicht einer breiteren Orchestration; beide können koexistieren.

Englische Fassung: Modell-Router on the EN edition.