Was ist ein Modell-Router?

Ein Modell-Router ist ein kleiner Klassifikator, der jede eingehende Anfrage inspiziert und sie an das richtige Modell oder den richtigen Workflow dispatched — klein/schnelles Modell für einfache Anfragen, gross/teures Modell nur, wenn die Aufgabe es verlangt. Er senkt Kosten um 60–80% auf Workloads mit gemischter Anfrage-Schwierigkeit.

Wie akkurat muss der Router sein?

Über 95% Routing-Genauigkeit auf einem repräsentativen Fixture-Set. Darunter beginnt Fehl-Routing sichtbare Qualitäts-Regressionen auf dem Klein-Modell-Pfad zu produzieren. Die Eval-Harness misst sowohl Routing-Genauigkeit als auch die Downstream-Qualität auf jedem Route, und das Regression-Gate scheitert bei jedem.

Soll ich den Router bauen oder einen gehosteten nutzen?

Gehostete Router (Martian, RouteLLM, Vercel AI Gateway) sind ein guter Startpunkt. Sie decken die gängigen Muster ab. Bauen Sie Ihren eigenen, wenn Sie workflow-spezifische Routen haben (z.B. Dispatch zu internen Agenten) oder strikte Kosten-Ziele, die custom Optimierung brauchen. Die Build-or-Buy-Entscheidung ist eine reguläre Morvion-Engagement-Frage.

Was ist der Unterschied zwischen einem Modell-Router und einem Agent-Dispatcher?

Dieselbe Idee, anderer Scope. Ein Modell-Router pickt zwischen Modellen für einen einzelnen LLM-Call. Ein Agent-Dispatcher pickt zwischen Agenten (oder Workflows) — von denen jeder viele Modell-Calls machen kann. Der Modell-Router ist eine Schicht einer breiteren Orchestration; beide können koexistieren.

Modell-Router · Morvion Glossar

Ein Modell-Router ist ein kleiner Klassifikator, der jede eingehende Anfrage inspiziert und sie an das richtige Modell oder den richtigen Workflow dispatched. Einfache Anfragen routen zu einem kleinen schnellen Modell; komplexe Anfragen routen zu einem grossen Modell. Der Router selbst läuft in Millisekunden und kostet pro Call quasi nichts — kann aber die Gesamt-KI-Kosten um 60–80% auf Workloads mit gemischter Schwierigkeit senken.

Routing-Signale.

Anfrage-Länge und -Komplexität — kurze faktische Anfragen gehen oft zu einem kleinen Modell; langes Multi-Step-Reasoning zu einem grossen.
Benötigte Tools — Anfragen, die Code-Execution, Web-Zugang oder strukturierte Planung brauchen, routen zu einem agentischen Workflow mit Tool Use; Anfragen, die keines brauchen, routen zu einem Flat-Call.
Konfidenz-basierte Eskalation — das kleine Modell antwortet zuerst; wenn seine selbst-berichtete Konfidenz (oder ein schneller Judge-Score) unter dem Schwellenwert liegt, eskaliere zum grossen Modell.

Anatomie.

Der Router ist typischerweise ein kleiner Klassifikator — Haiku-Class für LLM-basiertes Routing, oder ein fine-getunter Cross-Encoder für günstigeren Dispatch. Inputs: die Anfrage plus Session-Metadaten. Output: eines von N Route-Labels, mit Konfidenz. Routen mappen zu spezifischen Workflows in der Orchestration-Schicht.

Warum dieses Muster gewinnt.

Produktive KI-Workloads sind bimodal: Einfache Anfragen dominieren das Volumen, harte Anfragen dominieren die Kosten. Ohne Routing zahlt jede Anfrage Gross-Modell-Preis für Klein-Modell-Arbeit. Mit Routing matched die Kosten-Verteilung die Schwierigkeits-Verteilung. Auf den meisten Workloads, die wir auditiert haben, zahlt ein Router seine Implementierungs- Kosten innerhalb des ersten Monats zurück.

Häufige Fragen.

Was ist ein Modell-Router?: Ein Modell-Router ist ein kleiner Klassifikator, der jede eingehende Anfrage inspiziert und sie an das richtige Modell oder den richtigen Workflow dispatched — klein/schnelles Modell für einfache Anfragen, gross/teures Modell nur, wenn die Aufgabe es verlangt. Er senkt Kosten um 60–80% auf Workloads mit gemischter Anfrage-Schwierigkeit.
Wie akkurat muss der Router sein?: Über 95% Routing-Genauigkeit auf einem repräsentativen Fixture-Set. Darunter beginnt Fehl-Routing sichtbare Qualitäts-Regressionen auf dem Klein-Modell-Pfad zu produzieren. Die Eval-Harness misst sowohl Routing-Genauigkeit als auch die Downstream-Qualität auf jedem Route, und das Regression-Gate scheitert bei jedem.
Soll ich den Router bauen oder einen gehosteten nutzen?: Gehostete Router (Martian, RouteLLM, Vercel AI Gateway) sind ein guter Startpunkt. Sie decken die gängigen Muster ab. Bauen Sie Ihren eigenen, wenn Sie workflow-spezifische Routen haben (z.B. Dispatch zu internen Agenten) oder strikte Kosten-Ziele, die custom Optimierung brauchen. Die Build-or-Buy-Entscheidung ist eine reguläre Morvion-Engagement-Frage.
Was ist der Unterschied zwischen einem Modell-Router und einem Agent-Dispatcher?: Dieselbe Idee, anderer Scope. Ein Modell-Router pickt zwischen Modellen für einen einzelnen LLM-Call. Ein Agent-Dispatcher pickt zwischen Agenten (oder Workflows) — von denen jeder viele Modell-Calls machen kann. Der Modell-Router ist eine Schicht einer breiteren Orchestration; beide können koexistieren.

Englische Fassung: Modell-Router on the EN edition.

Modell-Router

Routing-Signale.

Anatomie.

Warum dieses Muster gewinnt.

Häufige Fragen.

Intelligente Systeme & KI-Infrastruktur

Weiter im Glossar.

KI-Infrastruktur

Eval-Harness

Regression Gate

RAG (Retrieval-Augmented Generation)

Model Context Protocol (MCP)

Agent Tool Use

LLM-Guardrails

Vektor-Index

Strukturierte Ausgabe

Prompt Injection

Observability-Traces

Agent-Handoff

Retrieval-Rerank

KI-Observability

Multi-Agent-Workflow

Embedding-Modell

Semantische Suche

Vektor-Datenbank

Fine-Tuning

Halluzination

Chain-of-Thought

Function Calling

Agentic Search

Embedding-Raum

Context-Window

Prompt Engineering

Vektor-Suche

Token-Budget

Semantischer Cache

Faithfulness

Cross-Encoder

KI-Kostenkontrolle

Modell-Destillation

Safety-Rails

KI-Agent

CRM-Intelligenz

Document Intelligence

Eval-Driven KI

Discovery Sprint

Digital Operating Layer

Immersive Website

Hospitality-Website

Marktplatz-Plattform

Business Intelligence Dashboard

Echtzeit-Dashboard

Kunden-Portal

Agent-Memory

Strukturierte Extraktion

KI-Evaluations-Framework

Retrieval-Qualität

KI-Guardrail-Policy

Eval-Fixture

Eval-Rubrik

KI-Incident

Agent-Orchestrierung

Eval-Versionierung

Modell-Fallback

Fein-granulares Routing

KI-Policy-Versionskontrolle