Was ist Modell-Destillation?

Modell-Destillation ist die Praxis, ein kleineres Modell (den Schüler) auf den Outputs eines grösseren Modells (des Lehrers) zu trainieren, sodass der Schüler lernt, den Lehrer auf dem Workflow zu imitieren, der zählt. Der Schüler shippt dann in Produktion zu einem Bruchteil der Kosten.

Was ist ein kleines Sprach-Modell (SLM)?

Ein kleines Sprach-Modell ist eines im Ein-bis-Zehn-Milliarden-Parameter-Bereich, designed, um günstig auf Consumer-Hardware oder bei hohem Durchsatz in Produktion zu laufen. Viele SLMs sind selbst aus grösseren Modellen destilliert. Sie exzellieren bei schmalen, gut definierten Aufgaben und unterperformen grosse allgemein-zweck Modelle bei offenem Reasoning.

Können wir aus einem Closed-Source-Modell destillieren?

Viele Provider-Terms-of-Service verbieten das Destillieren ihrer Modelle spezifisch, um ein konkurrierendes Modell zu bauen. Sie erlauben generell die Nutzung der Outputs, um derivative Applikationen unter Ihrem eigenen Produkt zu bauen. Lesen Sie die Lizenz-Terms, bevor Sie annehmen. Die technische Methode ist dieselbe; die juristische Haltung ist, was sich unterscheidet.

Modell-Destillation · Morvion Glossar

Modell-Destillation trainiert ein kleineres Modell auf den Outputs eines grösseren Modells, sodass das kleine Modell lernt, das grosse auf dem Workflow zu imitieren, der zählt. Der Lehrer macht das teure Denken. Der Schüler shippt in Produktion zu einem Bruchteil der Kosten.

Wie Destillation funktioniert.

Das Lehrer-Modell (oft das grösste, langsamste, teuerste Modell der Familie) generiert Outputs über einen Datensatz von Inputs. Diese Outputs werden zu Labels für das Fine-Tunen eines kleineren Schüler-Modells. Der Schüler wird trainiert, bis seine Outputs den des Lehrers auf der Eval-Rubrik nah genug matchen. Der Schüler wird dann deployt; der Lehrer wird vom kritischen Pfad zurückgezogen.

Warum Destillation in Produktion gewinnt.

Kosten. Kleinere Modelle können zehn bis hundert Mal günstiger pro Call sein. Auf einem Workflow, der eine Million mal pro Tag läuft, ist das der Unterschied zwischen einem viablen Feature und einem aufgegebenen.
Latenz. Kleinere Modelle sind schneller. Nutzer-zugewandter Chat, Real-Time-Assist und Hochdurchsatz- Pipelines profitieren alle von Sub-Sekunden-Antworten.
Lokal hostbar. Ein destilliertes kleines Modell kann auf Commodity-Hardware oder sogar On-Device laufen — und schaltet offline-fähige, compliance-gebundene oder niedrig-margin Workflows frei, die der Lehrer nie bedienen könnte.

Caveats.

Destillation transferiert Task-Verhalten, nicht generelle Fähigkeit. Der Schüler erbt die Gewohnheiten des Lehrers auf der trainierten Verteilung und nichts darüber hinaus. Off-Distribution-Anfragen regressieren stark. Destillation funktioniert für schmale, gut definierte Workflows; sie scheitert für allgemein-zweck Assistenten.

Wann destillieren.

Wenn der Workflow stabil ist, das Eval-Scoreboard reif ist (Sie brauchen einen echten Benchmark, um zu wissen, ob der Schüler gut genug ist), das Per-Call-Kosten- oder Latenz-Ziel bindend ist und das Fixture-Set die Produktions-Verteilung abdeckt. Destillation ist eine Late-Stage-Optimierung, kein erster Move.

Häufige Fragen.

Was ist Modell-Destillation?: Modell-Destillation ist die Praxis, ein kleineres Modell (den Schüler) auf den Outputs eines grösseren Modells (des Lehrers) zu trainieren, sodass der Schüler lernt, den Lehrer auf dem Workflow zu imitieren, der zählt. Der Schüler shippt dann in Produktion zu einem Bruchteil der Kosten.
Wann macht Modell-Destillation Sinn?: Sobald der Workflow stabil ist, das Eval-Scoreboard reif ist und das Per-Call-Kosten- oder Latenz-Ziel bindend ist. Destillation ist eine Late-Stage-Optimierung, kein erster Move. Der Schüler erbt das Task-Verhalten des Lehrers auf der trainierten Verteilung, nicht seine generelle Fähigkeit.
Was ist ein kleines Sprach-Modell (SLM)?: Ein kleines Sprach-Modell ist eines im Ein-bis-Zehn-Milliarden-Parameter-Bereich, designed, um günstig auf Consumer-Hardware oder bei hohem Durchsatz in Produktion zu laufen. Viele SLMs sind selbst aus grösseren Modellen destilliert. Sie exzellieren bei schmalen, gut definierten Aufgaben und unterperformen grosse allgemein-zweck Modelle bei offenem Reasoning.
Können wir aus einem Closed-Source-Modell destillieren?: Viele Provider-Terms-of-Service verbieten das Destillieren ihrer Modelle spezifisch, um ein konkurrierendes Modell zu bauen. Sie erlauben generell die Nutzung der Outputs, um derivative Applikationen unter Ihrem eigenen Produkt zu bauen. Lesen Sie die Lizenz-Terms, bevor Sie annehmen. Die technische Methode ist dieselbe; die juristische Haltung ist, was sich unterscheidet.

Englische Fassung: Modell-Destillation on the EN edition.

Modell-Destillation

Wie Destillation funktioniert.

Warum Destillation in Produktion gewinnt.

Caveats.

Wann destillieren.

Häufige Fragen.

Intelligente Systeme & KI-Infrastruktur

Weiter im Glossar.

KI-Infrastruktur

Eval-Harness

Regression Gate

RAG (Retrieval-Augmented Generation)

Model Context Protocol (MCP)

Agent Tool Use

LLM-Guardrails

Vektor-Index

Strukturierte Ausgabe

Prompt Injection

Observability-Traces

Agent-Handoff

Retrieval-Rerank

KI-Observability

Multi-Agent-Workflow

Embedding-Modell

Semantische Suche

Vektor-Datenbank

Fine-Tuning

Halluzination

Chain-of-Thought

Function Calling

Agentic Search

Embedding-Raum

Context-Window

Prompt Engineering

Vektor-Suche

Token-Budget

Semantischer Cache

Faithfulness

Cross-Encoder

Modell-Router

KI-Kostenkontrolle

Safety-Rails

KI-Agent

CRM-Intelligenz

Document Intelligence

Eval-Driven KI

Discovery Sprint

Digital Operating Layer

Immersive Website

Hospitality-Website

Marktplatz-Plattform

Business Intelligence Dashboard

Echtzeit-Dashboard

Kunden-Portal

Agent-Memory

Strukturierte Extraktion

KI-Evaluations-Framework

Retrieval-Qualität

KI-Guardrail-Policy

Eval-Fixture

Eval-Rubrik

KI-Incident

Agent-Orchestrierung

Eval-Versionierung

Modell-Fallback

Fein-granulares Routing

KI-Policy-Versionskontrolle