Ein Modell-Router ist ein kleiner Klassifikator, der jede eingehende Anfrage inspiziert und sie an das richtige Modell oder den richtigen Workflow dispatched. Einfache Anfragen routen zu einem kleinen schnellen Modell; komplexe Anfragen routen zu einem grossen Modell. Der Router selbst läuft in Millisekunden und kostet pro Call quasi nichts — kann aber die Gesamt-KI-Kosten um 60–80% auf Workloads mit gemischter Schwierigkeit senken.
Routing-Signale.
- Anfrage-Länge und -Komplexität — kurze faktische Anfragen gehen oft zu einem kleinen Modell; langes Multi-Step-Reasoning zu einem grossen.
- Benötigte Tools — Anfragen, die Code-Execution, Web-Zugang oder strukturierte Planung brauchen, routen zu einem agentischen Workflow mit Tool Use; Anfragen, die keines brauchen, routen zu einem Flat-Call.
- Konfidenz-basierte Eskalation — das kleine Modell antwortet zuerst; wenn seine selbst-berichtete Konfidenz (oder ein schneller Judge-Score) unter dem Schwellenwert liegt, eskaliere zum grossen Modell.
Anatomie.
Der Router ist typischerweise ein kleiner Klassifikator — Haiku-Class für LLM-basiertes Routing, oder ein fine-getunter Cross-Encoder für günstigeren Dispatch. Inputs: die Anfrage plus Session-Metadaten. Output: eines von N Route-Labels, mit Konfidenz. Routen mappen zu spezifischen Workflows in der Orchestration-Schicht.
Warum dieses Muster gewinnt.
Produktive KI-Workloads sind bimodal: Einfache Anfragen dominieren das Volumen, harte Anfragen dominieren die Kosten. Ohne Routing zahlt jede Anfrage Gross-Modell-Preis für Klein-Modell-Arbeit. Mit Routing matched die Kosten-Verteilung die Schwierigkeits-Verteilung. Auf den meisten Workloads, die wir auditiert haben, zahlt ein Router seine Implementierungs- Kosten innerhalb des ersten Monats zurück.
Häufige Fragen.
- Was ist ein Modell-Router?
- Ein Modell-Router ist ein kleiner Klassifikator, der jede eingehende Anfrage inspiziert und sie an das richtige Modell oder den richtigen Workflow dispatched — klein/schnelles Modell für einfache Anfragen, gross/teures Modell nur, wenn die Aufgabe es verlangt. Er senkt Kosten um 60–80% auf Workloads mit gemischter Anfrage-Schwierigkeit.
- Wie akkurat muss der Router sein?
- Über 95% Routing-Genauigkeit auf einem repräsentativen Fixture-Set. Darunter beginnt Fehl-Routing sichtbare Qualitäts-Regressionen auf dem Klein-Modell-Pfad zu produzieren. Die Eval-Harness misst sowohl Routing-Genauigkeit als auch die Downstream-Qualität auf jedem Route, und das Regression-Gate scheitert bei jedem.
- Soll ich den Router bauen oder einen gehosteten nutzen?
- Gehostete Router (Martian, RouteLLM, Vercel AI Gateway) sind ein guter Startpunkt. Sie decken die gängigen Muster ab. Bauen Sie Ihren eigenen, wenn Sie workflow-spezifische Routen haben (z.B. Dispatch zu internen Agenten) oder strikte Kosten-Ziele, die custom Optimierung brauchen. Die Build-or-Buy-Entscheidung ist eine reguläre Morvion-Engagement-Frage.
- Was ist der Unterschied zwischen einem Modell-Router und einem Agent-Dispatcher?
- Dieselbe Idee, anderer Scope. Ein Modell-Router pickt zwischen Modellen für einen einzelnen LLM-Call. Ein Agent-Dispatcher pickt zwischen Agenten (oder Workflows) — von denen jeder viele Modell-Calls machen kann. Der Modell-Router ist eine Schicht einer breiteren Orchestration; beide können koexistieren.
Englische Fassung: Modell-Router on the EN edition.