Modell-Destillation trainiert ein kleineres Modell auf den Outputs eines grösseren Modells, sodass das kleine Modell lernt, das grosse auf dem Workflow zu imitieren, der zählt. Der Lehrer macht das teure Denken. Der Schüler shippt in Produktion zu einem Bruchteil der Kosten.

Wie Destillation funktioniert.

Das Lehrer-Modell (oft das grösste, langsamste, teuerste Modell der Familie) generiert Outputs über einen Datensatz von Inputs. Diese Outputs werden zu Labels für das Fine-Tunen eines kleineren Schüler-Modells. Der Schüler wird trainiert, bis seine Outputs den des Lehrers auf der Eval-Rubrik nah genug matchen. Der Schüler wird dann deployt; der Lehrer wird vom kritischen Pfad zurückgezogen.

Warum Destillation in Produktion gewinnt.

  • Kosten. Kleinere Modelle können zehn bis hundert Mal günstiger pro Call sein. Auf einem Workflow, der eine Million mal pro Tag läuft, ist das der Unterschied zwischen einem viablen Feature und einem aufgegebenen.
  • Latenz. Kleinere Modelle sind schneller. Nutzer-zugewandter Chat, Real-Time-Assist und Hochdurchsatz- Pipelines profitieren alle von Sub-Sekunden-Antworten.
  • Lokal hostbar. Ein destilliertes kleines Modell kann auf Commodity-Hardware oder sogar On-Device laufen — und schaltet offline-fähige, compliance-gebundene oder niedrig-margin Workflows frei, die der Lehrer nie bedienen könnte.

Caveats.

Destillation transferiert Task-Verhalten, nicht generelle Fähigkeit. Der Schüler erbt die Gewohnheiten des Lehrers auf der trainierten Verteilung und nichts darüber hinaus. Off-Distribution-Anfragen regressieren stark. Destillation funktioniert für schmale, gut definierte Workflows; sie scheitert für allgemein-zweck Assistenten.

Wann destillieren.

Wenn der Workflow stabil ist, das Eval-Scoreboard reif ist (Sie brauchen einen echten Benchmark, um zu wissen, ob der Schüler gut genug ist), das Per-Call-Kosten- oder Latenz-Ziel bindend ist und das Fixture-Set die Produktions-Verteilung abdeckt. Destillation ist eine Late-Stage-Optimierung, kein erster Move.

Häufige Fragen.

Was ist Modell-Destillation?
Modell-Destillation ist die Praxis, ein kleineres Modell (den Schüler) auf den Outputs eines grösseren Modells (des Lehrers) zu trainieren, sodass der Schüler lernt, den Lehrer auf dem Workflow zu imitieren, der zählt. Der Schüler shippt dann in Produktion zu einem Bruchteil der Kosten.
Wann macht Modell-Destillation Sinn?
Sobald der Workflow stabil ist, das Eval-Scoreboard reif ist und das Per-Call-Kosten- oder Latenz-Ziel bindend ist. Destillation ist eine Late-Stage-Optimierung, kein erster Move. Der Schüler erbt das Task-Verhalten des Lehrers auf der trainierten Verteilung, nicht seine generelle Fähigkeit.
Was ist ein kleines Sprach-Modell (SLM)?
Ein kleines Sprach-Modell ist eines im Ein-bis-Zehn-Milliarden-Parameter-Bereich, designed, um günstig auf Consumer-Hardware oder bei hohem Durchsatz in Produktion zu laufen. Viele SLMs sind selbst aus grösseren Modellen destilliert. Sie exzellieren bei schmalen, gut definierten Aufgaben und unterperformen grosse allgemein-zweck Modelle bei offenem Reasoning.
Können wir aus einem Closed-Source-Modell destillieren?
Viele Provider-Terms-of-Service verbieten das Destillieren ihrer Modelle spezifisch, um ein konkurrierendes Modell zu bauen. Sie erlauben generell die Nutzung der Outputs, um derivative Applikationen unter Ihrem eigenen Produkt zu bauen. Lesen Sie die Lizenz-Terms, bevor Sie annehmen. Die technische Methode ist dieselbe; die juristische Haltung ist, was sich unterscheidet.

Englische Fassung: Modell-Destillation on the EN edition.