← Zurück zum Glossar

Distillation

Definition

Verfahren, ein kleineres "Schüler"-Modell so zu trainieren, dass es das Verhalten eines größeren "Lehrer"-Modells annähert. Ziel: vergleichbare Qualität bei deutlich geringeren Inferenzkosten und Latenzen. Häufig in Verbindung mit Fine-Tuning auf domänenspezifische Aufgaben eingesetzt.

Noise — Signal

Distillation wird oft als "wir nehmen einfach ein kleineres Modell und sind günstiger" vereinfacht. Der Erfolg hängt an drei Bedingungen: hochqualitative Trainingsdaten oder ein zugängliches Lehrer-Modell, eine eng definierte Aufgabe und systematische Evaluierung. Distillation ohne klar abgegrenzten Anwendungsfall führt zu einem Modell, das in Benchmarks stabil aussieht, aber an Edge Cases scheitert.

Die richtige Frage

Nicht: "Können wir das Modell distillieren, um Kosten zu sparen?" Sondern: "Welche Teilaufgabe ist eng genug definiert, dass ein kleineres Modell sie zuverlässig abbilden kann, und haben wir die Evaluierungs-Infrastruktur, um Qualitätsabfälle zu erkennen, bevor sie den Endkunden treffen?"

← Zurück zum Glossar