Fine-Tuning setzt das Training eines allgemein-zweck Modells auf einem kuratierten, task-spezifischen Datensatz fort, sodass sich die Gewichte des Modells in Richtung Sprache, Struktur und Urteile einer Domäne verschieben. Es ist der richtige Move, wenn Prompting allein das Modell nicht dorthin bringt, wo der Workflow es braucht. Es ist der falsche erste Move auf fast jedem Projekt.

Wann Fine-Tuning tatsächlich hilft.

  • Striktes Output-Format. Das Basis-Modell emittiert JSON-ähnlichen Output, bricht aber das Schema in fünf Prozent der Fälle. Fine-Tuning auf ein paar hundert Beispielen kann Schema-Einhaltung über neunundneunzig Prozent bringen.
  • Brand-Voice. Das Modell liest sich wie ein LLM in einem Ton, der nicht zum Operator passt. Ein paar hundert gelabelte Voice-Beispiele verschieben es.
  • Domänen-Vokabular. Schwerer Fachjargon, regulierte Phrasierung oder proprietäre Nomenklatur, die das Basis-Modell nicht in Verteilung gesehen hat.
  • Latenz oder Kosten. Ein kleines fine-getuntes Modell kann ein viel grösseres Basis-Modell auf der schmalen Aufgabe matchen, zu einem Bruchteil der Per-Call-Kosten.

Wann es nicht hilft.

Fine-Tuning lehrt dem Modell keine neuen Fakten; es lehrt Muster. Wenn das fehlende Stück Retrieval ist (das Modell kennt Ihre Daten nicht), ist die Antwort RAG, nicht Fine-Tuning. Wenn das fehlende Stück Reasoning- Fähigkeit ist, ist die Antwort ein grösseres Modell oder Chain-of-Thought-Prompting, nicht Fine-Tuning. Teams, die zuerst zu Fine-Tuning greifen, finden meistens, dass sie für eine langsamere, brüchigere Version derselben Lücke bezahlt haben.

LoRA und parameter-effiziente Methoden.

Modernes Fine-Tuning aktualisiert selten jedes Gewicht. Low-Rank Adaptation (LoRA) und verwandte Methoden aktualisieren ein kleines Set Adapter-Gewichte, sodass ein einzelnes Basis-Modell Dutzende fine-getunte Varianten hosten kann, ohne den Storage- und Serving-Overhead voller Kopien. Für die meisten produktiven Workflows 2026 ist LoRA der Default.

Fine-Tuning braucht zuerst Evals.

Ein Fine-Tune ohne Fixture-Set ist eine Vermutung. Der Pre-Tuning-Baseline, der Post-Tuning-Score und der Regressions-Check gegen den Baseline sind, wie das Team lernt, ob der Tune den Workflow tatsächlich vorwärts bewegt hat.

Häufige Fragen.

Was ist Fine-Tuning?
Fine-Tuning ist die Praxis, das Training eines vortrainierten Sprach-Modells auf einem kleineren task-spezifischen Datensatz fortzusetzen, um es auf eine Domäne oder ein Output-Format zu spezialisieren. Das Ergebnis ist ein Modell, das immer noch allgemeine Sprache versteht, aber Outputs näher an der Zielverteilung produziert.
Wann sollten wir fine-tunen versus Prompting oder RAG?
Erst Prompting. Dann RAG, wenn die Lücke fehlende Daten ist. Fine-Tunen nur, wenn die Lücke Output-Form, Brand-Voice, dichtes Domänen-Vokabular oder Kosten- und Latenz-Ziele ist, die ein kleineres Modell treffen kann, wenn spezialisiert. Fine-Tuning lehrt keine neuen Fakten; es lehrt Muster.
Was ist LoRA-Fine-Tuning?
Low-Rank Adaptation ist eine parameter-effiziente Fine-Tuning-Methode, die ein kleines Set Adapter-Gewichte auf einem eingefrorenen Basis-Modell trainiert, statt alle Modell-Parameter zu aktualisieren. Das Resultat ist ein Tune, der Stunden statt Tage braucht, Grössenordnungen weniger zum Trainieren kostet und Dutzende Varianten auf einem Basis-Modell shippt.
Wie viele Beispiele brauchen wir zum Fine-Tunen?
Zwischen ein paar hundert und ein paar tausend hochqualitativen, gelabelten Beispielen reichen für die meisten schmalen Aufgaben. Qualität schlägt Quantität. Das Fixture-Set, das für die Evaluation genutzt wird, sollte vollständig vom Trainings-Set ausgeschlossen sein.

Englische Fassung: Fine-Tuning on the EN edition.