Optimierung der Wissensdestillation für effiziente Sprachmodelle

Kategorien:

No items found.

Freigegeben:

January 15, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Forschungsergebnisse zeigen, wie die Wissensdestillation in großen Sprachmodellen (LLMs) optimiert werden kann, um kleinere Modelle leistungsfähiger zu machen.
DASD-4B-Thinking ist ein neues, leichtgewichtiges Open-Source-Modell, das trotz seiner geringen Größe in komplexen Denkaufgaben wie Mathematik, wissenschaftlichem Denken und Code-Generierung herausragende Leistungen erbringt.
Drei Hauptprobleme der aktuellen Destillationsmethoden wurden identifiziert und durch innovative Ansätze wie "Temperature-scheduled Learning", "Divergence-aware Sampling" und "Mixed-policy Distillation" behoben.
Das Modell demonstriert mit nur 448.000 Trainingsbeispielen eine hohe Dateneffizienz, was deutlich weniger ist als bei vielen anderen Open-Source-Projekten.
Die Ergebnisse betonen die Bedeutung einer präzisen Datenaufbereitung und eines optimierten Trainingsprozesses für die effektive Übertragung von komplexen Denkfähigkeiten von großen zu kleineren Modellen.

Die rapide Entwicklung großer Sprachmodelle (LLMs) hat zu beeindruckenden Fortschritten in der künstlichen Intelligenz geführt, insbesondere im Bereich des komplexen Denkens, auch bekannt als "Chain-of-Thought" (CoT) Reasoning. Diese Modelle sind in der Lage, mehrstufige Denkprozesse zu simulieren, was ihre Problemlösungsfähigkeiten erheblich verbessert. Allerdings gehen diese Fähigkeiten oft mit erheblichen Rechenressourcen einher, was den Einsatz in ressourcenbeschränkten Umgebungen erschwert.

Ein vielversprechender Ansatz zur Effizienzsteigerung ist die Wissensdestillation, bei der Wissen von einem großen, leistungsstarken "Lehrer"-Modell auf ein kleineres "Schüler"-Modell übertragen wird. Aktuelle Studien beleuchten die Herausforderungen und Potenziale dieser Methode und stellen innovative Lösungen vor, die das Training kleinerer Modelle mit überlegenen Denkfähigkeiten ermöglichen.

Herausforderungen in der aktuellen Wissensdestillation

Die gängige Praxis der Wissensdestillation, insbesondere die übergeordnete Feinabstimmung (Supervised Fine-Tuning, SFT) basierend auf von Lehrer-Modellen generierten Antworten, hat sich als effizient erwiesen. Dennoch offenbaren sich bei näherer Betrachtung drei zentrale Limitationen, die die Effektivität dieses Paradigmas schmälern:

Unzureichende Repräsentation der Lehrer-Ausgabeverteilung

Bestehende Methoden konzentrieren sich oft auf heuristische Regeln zur Filterung von SFT-Daten, was dazu führen kann, dass die volle Bandbreite der Ausgabeverteilung des Lehrer-Modells nicht ausreichend erfasst wird. Dies kann die Fähigkeit des Schüler-Modells beeinträchtigen, die Generalisierungsfähigkeit des Lehrers vollständig zu erben.

Fehlanpassung zwischen Lehrer-Ausgabeverteilung und Schüler-Lernfähigkeit

Die Art und Weise, wie die Daten des Lehrer-Modells präsentiert werden, kann zu irreführenden Gradienten im Lernprozess des Schüler-Modells führen. Wenn das Schüler-Modell beispielsweise Tokens, denen der Lehrer eine geringe Wahrscheinlichkeit zuweist, eine hohe Wahrscheinlichkeit zuordnet, kann SFT diese Wahrscheinlichkeiten noch weiter erhöhen und das Schüler-Modell von der gewünschten Lehrer-Verteilung entfernen.

Exposure Bias durch "Teacher-forced Training"

Während des Trainings wird das Schüler-Modell häufig mit sogenannten "Teacher-forced Inputs" konfrontiert, bei denen es auf die Präfixe des Lehrer-Modells konditioniert wird. Bei der Inferenz muss es sich jedoch auf seine eigenen autoregressiven Vorhersagen verlassen. Diese Diskrepanz zwischen Trainings- und Inferenzsituation kann zu einem "Exposure Bias" führen, der Fehler akkumuliert und die Modellleistung beeinträchtigt.

Methodologische Innovationen für überlegenes Long-CoT Reasoning

Um diese Herausforderungen zu adressieren, haben Forscher eine Reihe methodologischer Innovationen vorgeschlagen, die zusammen eine verbesserte Trainingspipeline für die sequenzbasierte Destillation bilden. Das Ergebnis dieser Bemühungen ist DASD-4B-Thinking, ein leichtgewichtiges, aber hochleistungsfähiges Reasoning-Modell.

Temperature-scheduled Learning: Erweiterung der Abdeckung von Lehrer-Modi

Ein zentraler Ansatz ist die Einführung eines "Temperature-scheduled Learning". Traditionelles Sampling bei niedriger Temperatur führt zu schärferen, konzentrierteren Verteilungen, die leichter zu lernen sind, aber nur einen kleinen Teil der Lehrer-Modi abdecken. Höhere Temperaturen hingegen erzeugen vielfältigere Daten, die mehr Modi des Lehrers erfassen, aber das Lernen erschweren können. Die vorgeschlagene Strategie beginnt mit niedriger Temperatur für eine stabile frühe Lernphase und wechselt dann zu höherer Temperatur, um die Modusabdeckung zu erweitern. Dieser zweistufige Ansatz hat sich insbesondere in komplexen Bereichen wie Mathematik und Code-Generierung als vorteilhaft erwiesen.

Divergence-aware Sampling: Gezielte Lernunterstützung für das Schüler-Modell

Um die Fehlanpassung zwischen Lehrer- und Schüler-Verteilung zu minimieren, wurde das "Divergence-aware Sampling" (DAS) entwickelt. Dieses Framework analysiert Diskrepanzen zwischen den Vorhersagewahrscheinlichkeiten von Lehrer- und Schüler-Modellen auf Satzebene. Es wurde festgestellt, dass Muster, bei denen der Lehrer eine hohe Konfidenz aufweist, während das Schüler-Modell eine niedrige Wahrscheinlichkeit hat ("Teacher Sentences"), besonders förderlich für das Lernen sind. Durch die Priorisierung solcher Beispiele während des Trainings kann das Schüler-Modell effektiver lernen und irreführende Gradienten vermeiden.

Mixed-policy Distillation: Minderung des Exposure Bias

Zur Bekämpfung des Exposure Bias wird eine "Mixed-policy Distillation" eingesetzt. Nach einer initialen Off-Policy-SFT-Phase werden dabei gezielt Daten generiert, die sowohl vom Schüler- als auch vom Lehrer-Modell stammen. Das trainierte Schüler-Modell generiert zunächst Antworten, die dann an zufälligen Punkten abgeschnitten werden. Das Lehrer-Modell vervollständigt daraufhin die Sequenz. Nur qualitativ hochwertige Lehrer-Fortsetzungen werden für die Feinabstimmung des Schülers verwendet. Dieser hybride Ansatz reduziert den Exposure Bias und fördert präzisere Modellausgaben.

Die DASD-4B-Thinking Pipeline im Detail

Die vollständige Trainingspipeline für DASD-4B-Thinking integriert diese Innovationen in einem mehrstufigen Prozess:

Fragensammlung und Datenaufbereitung

Es werden anspruchsvolle Fragen aus verschiedenen Domänen gesammelt, darunter mathematisches Denken, Code-Generierung, wissenschaftliches Denken und Befolgen von Anweisungen. Diese stammen aus öffentlich verfügbaren Datensätzen wie NVIDIA AceReason, OpenCodeReasoning und OpenScience Reasoning.

Antwort-Sampling und Filterung

Für jede Frage werden vom Lehrer-Modell (gpt-oss-120b) mehrere Kandidatenantworten bei niedriger und hoher Temperatur generiert. Das "Divergence-aware Sampling" wird angewendet, um Beispiele zu priorisieren, die das Lernen des Schülers (Qwen3-4B-Instruct-2507) optimal unterstützen. Eine strenge Filterung eliminiert minderwertige Antworten, basierend auf Länge, Struktur (z.B. Entfernung von Funktionsaufrufen) und Vermeidung repetitiver Inhalte.

Mehrstufiges Training

Die Trainingspipeline umfasst zwei Hauptphasen:

Temperature-scheduled Learning: Zunächst wird SFT mit Daten bei niedriger Temperatur durchgeführt, gefolgt von Daten bei hoher Temperatur. Dies ermöglicht dem Schüler-Modell, zunächst konsistente Muster zu erlernen und dann die Abdeckung der Lehrer-Modi zu erweitern.
Mixed-policy Distillation: In einem späteren Schritt wird der Exposure Bias durch die Generierung von Mixed-Policy-Daten reduziert. Hierbei generiert das Schüler-Modell Antworten, die bei Bedarf vom Lehrer-Modell korrigiert und vervollständigt werden.

Experimentelle Ergebnisse und Leistungsbewertung

DASD-4B-Thinking wurde auf fünf etablierten Benchmarks evaluiert: AIME24, AIME25 (mathematisches Denken), GPQA Diamond (wissenschaftliches Denken) und LiveCodeBench (Code-Generierung, v5 & v6).

Herausragende Leistung bei vergleichbarer Größe

Das Modell erzielt in allen Kategorien State-of-the-Art-Leistungen für seine Größenordnung. Beeindruckend ist, dass es sogar mehrere deutlich größere Modelle (z.B. 32B-Modelle) übertrifft. Dies unterstreicht die Effektivität des Ansatzes und die hohe Effizienz der Trainingsdaten.

- Mathematisches Denken (AIME24, AIME25): DASD-4B-Thinking erreicht 88,5% auf AIME24 und 83,3% auf AIME25, was es an die Spitze aller getesteten Modelle setzt, selbst im Vergleich zu Modellen mit 8- bis 60-facher Parameteranzahl. Bemerkenswert ist, dass diese Ergebnisse mit nur 448.000 Trainingsbeispielen erzielt wurden, während andere Modelle, wie AM-thinking-v1 (32B), 2,9 Millionen Beispiele benötigten. - Code-Generierung (LiveCodeBench): Mit 69,3% auf LCB v5 und 67,5% auf LCB v6 übertrifft DASD-4B-Thinking ebenfalls größere Konkurrenten wie DeepSeek-R1-0528-Qwen3-8B und Qwen3-14B. - Wissenschaftliches Denken (GPQA-D): Das Modell erreicht 68,4% auf GPQA-D und nähert sich damit der Leistung wesentlich größerer Modelle an, wie Qwen3-32B (ebenfalls 68,4%) und NVIDIA-Nemotron-Ultra-253B (76,0%).

Ablationsstudien bestätigen die Wirksamkeit

Ablationsstudien über die einzelnen Trainingsstufen bestätigen die konsistenten Leistungsverbesserungen durch jeden der drei Hauptbestandteile: Niedertemperatur-Training (mit DAS) liefert signifikante anfängliche Gewinne, Hochtemperatur-Training (mit DAS) verbessert die Leistung weiter, und Mixed-Policy-Distillation führt zu zusätzlichen Zuwächsen, selbst bei einem bereits starken Modell.

Anwendung auf MoE-Modelle

Das Destillations-Framework wurde auch erfolgreich auf Mixture-of-Experts (MoE) Modelle übertragen. Eine Vorabversion, DASD-30B-A3B-Thinking-Preview, die lediglich mit der ersten Stufe der Pipeline trainiert wurde und auf denselben Datensatz wie das 4B-Modell zurückgreift, zeigt bereits eine starke Wettbewerbsfähigkeit gegenüber anderen MoE-Baselines. Dies unterstreicht die Skalierbarkeit und Robustheit des Ansatzes.

Fazit und Ausblick

Die vorgestellten Forschungsergebnisse demonstrieren, dass durch eine sorgfältig konzipierte und dateneffiziente Destillationspipeline komplexe Denkfähigkeiten von großen auf kleinere Sprachmodelle übertragen werden können. DASD-4B-Thinking ist ein Beweis dafür, dass leichtgewichtige Modelle State-of-the-Art-Leistungen erbringen können, oft sogar größere Konkurrenten übertreffen.

Die entscheidenden Innovationen – Temperature-scheduled Learning, Divergence-aware Sampling und Mixed-policy Distillation – bieten neue Perspektiven für die Entwicklung kompakter, leistungsstarker und vollständig offener Reasoning-Modelle. Zukünftige Arbeiten könnten die Verteilungs-bewusste Neugewichtung während der SFT, eine weitere Verfeinerung der Mixed-policy Distillation sowie die Integration agentischer Fähigkeiten wie Wissensabruf und Werkzeugnutzung umfassen, um noch leistungsfähigere, domänenangepasste Modelle für reale Aufgaben zu entwickeln.

Diese Erkenntnisse sind für B2B-Anwender von großer Bedeutung, da sie den Weg für den effizienten Einsatz von KI-Modellen in ressourcenbeschränkten Umgebungen ebnen und gleichzeitig die Komplexität und Leistungsfähigkeit von KI-Anwendungen in verschiedenen Branchen signifikant erhöhen.

Bibliographie

- Agarwal, R., Vieillard, N., Zhou, Y., Stanczyk, P., Garea, S. R., Geist, M., & Bachem, O. (2024). On-policy distillation of language models: learning from self-generated mistakes. In International Conference on Learning Representations. - Agarwal, S., Ahmad, L., Ai, J., Altman, S., Applebaum, A., Arbus, E., ... & Ye, J. (2025). Gpt-oss-120b & gpt-oss-20b model card. CoRR abs/2508.10925. - Ahmad, W. U., Narenthiran, S., Majumdar, S., Ficek, A., Jain, S., Huang, J., Noroozi, V., & Ginsburg, B. (2025). OpenCodeReasoning: advancing data distillation for competitive coding. CoRR abs/2504.01943. - AIME (2025). AIME problems and solutions. - An, C., Xie, Z., Li, X., Li, L., Zhang, J., Gong, S., ... & Kong, L. (2025). POLARIS: a post-training recipe for scaling reinforcement learning on advanced reasoning models. - Bercovich, A., Levy, I., Golan, I., Dabbah, M., El-Yaniv, R., Puny, O., ... & Nabwani, N. (2025). Llama-nemotron: efficient reasoning models. arXiv preprint arXiv:2505.00949. - Cai, W., Wang, C., Yan, J., Huang, J., & Fang, X. (2025). Reasoning with omnithought: A large cot dataset with verbosity and cognitive difficulty annotations. CoRR abs/2505.10937. - Caron, M., Touvron, H., Misra, I., Jégou, H., Mairal, J., Bojanowski, P., & Joulin, A. (2021). Emerging properties in self-supervised vision transformers. In IEEE/CVF International Conference on Computer Vision. - Chen, H., Razin, N., Narasimhan, K., & Chen, D. (2025a). Retaining by doing: the role of on-policy data in mitigating forgetting. CoRR abs/2510.18874. - Chen, Y., Yang, Z., Liu, Z., Lee, C., Xu, P., Shoeybi, M., Catanzaro, B., & Ping, W. (2025b). AceReason-nemotron: advancing math and code reasoning through reinforcement learning. CoRR abs/2505.16400. - Gu, Y., Dong, L., Wei, F., & Huang, M. (2024). MiniLLM: knowledge distillation of large language models. In International Conference on Learning Representations. - Guha, E. K., Marten, R., Keh, S., Raoof, N., Smyrnis, G., Bansal, H., ... & Sprague, Z. (2025). OpenThoughts: data recipes for reasoning models. CoRR abs/2506.04178. - Guo, D., Yang, D., Zhang, H., Song, J., Wang, P., Zhu, Q., ... & Bi, X. (2025). DeepSeek-r1 incentivizes reasoning in llms through reinforcement learning. Nature, 645(8081), 633–638. - He, Z., Liang, T., Xu, J., Liu, Q., Chen, X., Wang, Y., ... & Yu, D. (2025). DeepMath-103k: A large-scale, challenging, decontaminated, and verifiable mathematical dataset for advancing reasoning. CoRR abs/2504.11456. - Hendrycks, D., Basart, S., Kadavath, S., Mazeika, M., Arora, A., Guo, E., ... & Steinhardt, J. (2021). Measuring coding challenge competence with APPS. In Neural Information Processing Systems Track on Datasets and Benchmarks. - Hinton, G. E., Vinyals, O., & Dean, J. (2015). Distilling the knowledge in a neural network. CoRR abs/1503.02531. - Holtzman, A., Buys, J., Du, L., Forbes, M., & Choi, Y. (2020). The curious case of neural text degeneration. In International Conference on Learning Representations. - Hugging Face (2025). Open r1: a fully open reproduction of deepseek-r1. - Jain, N., Han, K., Gu, A., Li, W., Yan, F., Zhang, T., ... & Stoica, I. (2024). LiveCodeBench: holistic and contamination free evaluation of large language models for code. CoRR abs/2403.07974. - Jang, E., Gu, S., & Poole, B. (2017). Categorical reparameterization with gumbel-softmax. In International Conference on Learning Representations. - Ji, Y., Tian, X., Zhao, S., Wang, H., Chen, S., Peng, Y., ... & Li, X. (2025). AM-thinking-v1: advancing the frontier of reasoning at 32b scale. CoRR abs/2505.08311. - Jung, J., Han, S., Lu, X., Hallinan, S., Acuna, D., Prabhumoye, S., ... & Choi, Y. (2025). Prismatic synthesis: gradient-based data diversification boosts generalization in LLM reasoning. CoRR abs/2505.20161. - Kamath, A., Ferret, J., Pathak, S., Vieillard, N., Merhej, R., Perrin, S., ... & Rouillard, L. (2025). Gemma 3 technical report. CoRR abs/2503.19786. - Kim, Y., & Rush, A. M. (2016). Sequence-level knowledge distillation. In Conference on Empirical Methods in Natural Language Processing. - Lei, Z., Tan, Z., Wang, S., Zhu, Y., Chen, Z., Dong, Y., & Li, J. (2025). Learning from diverse reasoning paths with routing and collaboration. CoRR abs/2508.16861. - Li, H., Yang, K., Chu, Y., Liu, H., & Tang, J. (2025a). Exploring solution divergence and its effect on large language model problem solving. CoRR abs/2509.22480. - Li, J., Beeching, E., Tunstall, L., Lipkin, B., Soletskyi, R., Huang, S. C., ... & Polu, S. (2024). NuminaMath. Numina. - Li, R., Fu, J., Zhang, B., Huang, T., Sun, Z., Lyu, C., ... & Li, G. (2023a). TACO: topics in algorithmic code generation dataset. CoRR abs/2312.14852. - Li, X., Xiao, Y., Ng, D., Ye, H., Deng, Y., Lin, X., ... & Bing, L. (2025b). MiroMind-m1: an open-source advancement in mathematical reasoning via context-aware multi-stage policy optimization. CoRR abs/2507.14683. - Li, Y., Emad, Y., Padthe, K., Lanchantin, J., Yuan, W., Nguyen, T., ... & Li, X. (2025c). NaturalThoughts: selecting and distilling reasoning traces for general reasoning tasks. CoRR abs/2507.01921. - Li, Y., Choi, D. H., Chung, J., Kushman, N., Schrittwieser, J., Leblond, R., ... & Vinyals, O. (2022). Competition-level code generation with alphacode. CoRR abs/2203.07814. - Li, Z., Li, X., Yang, L., Zhao, B., Song, R., Luo, L., ... & Yang, J. (2023b). Curriculum temperature for knowledge distillation. In Proceedings of the AAAI Conference on Artificial Intelligence. - Liu, K., Yan, S., Miao, R., Wang, B., Shen, C., Zhang, J., & Ye, J. (2025). Where did this sentence come from? tracing provenance in llm reasoning distillation. arXiv preprint arXiv:2512.20908. - Lu, K., & Lab, T. M. (2025). On-policy distillation. Thinking Machines Lab: Connectionism. - Mattern, J., Jaghouar, S., Basra, M., Straube, J., Ferrante, M. D., Gabriel, F., ... & Hagemann, J. (2025). SYNTHETIC-1: two million collaboratively generated reasoning traces from deepseek-r1. - Mistral AI Team (2025). Mistral 3. - Moshkov, I., Hanley, D., Sorokin, I., Toshniwal, S., Henkel, C., Schifferer, B., ... & Gitman, I. (2025). AIMO-2 winning solution: building state-of-the-art mathematical reasoning models with openmathreasoning dataset. CoRR abs/2504.16891. - Muennighoff, N., Yang, Z., Shi, W., Li, X. L., Fei-Fei, L., Hajishirzi, H., ... & Hashimoto, T. (2025). S1: simple test-time scaling. CoRR abs/2501.19393. - Nvidia (2024). OpenScience. Nvidia. - NVIDIA (2025). Nemotron 3 Nano: open, efficient mixture-of-experts hybrid Mamba-Transformer model for Agentic reasoning. Technical report. - Ranzato, M., Chopra, S., Auli, M., & Zaremba, W. (2016). Sequence level training with recurrent neural networks. In International Conference on Learning Representations. - Rein, D., Hou, B. L., Stickland, A. C., Petty, J., Pang, R. Y., Dirani, J., ... & Bowman, S. R. (2023). GPQA: a graduate-level Google-proof Q&A benchmark. CoRR abs/2311.12022. - Team, N. (2025). Sky-t1: train your own o1 preview model within $450. - Wen, L., Cai, Y., Xiao, F., He, X., An, Q., Duan, Z., ... & Zhang, X. (2025). Light-r1: curriculum sft, DPO and RL for long COT from scratch and beyond. CoRR abs/2503.10460. - Wu, X., Jiang, X., Li, H., Zhai, J., Liu, D., Hao, Q., ... & Wang, J. (2025). Beyond scaling law: A data-efficient distillation framework for reasoning. CoRR abs/2508.09883. - Yan, J., Liu, L., Pan, Y., Chen, S., Xiang, Y., & Tang, B. (2025). Towards efficient cot distillation: self-guided rationale selector for better performance with fewer rationales. CoRR abs/2509.23574. - Yang, A., Li, A., Yang, B., Zhang, B., Hui, B., Zheng, B., ... & Lv, C. (2025). Qwen3 technical report. CoRR abs/2505.09388. - Ye, Y., Huang, Z., Xiao, Y., Chern, E., Xia, S., & Liu, P. (2025). LIMO: less is more for reasoning. CoRR abs/2502.03387. - Zeng, A., Xu, B., Wang, B., Zhang, C., Yin, D., Rojas, D., ... & Yu, H. (2024). ChatGLM: a family of large language models from GLM-130B to GLM-4 all tools. CoRR abs/2406.12793. - Zhao, H., Wang, H., Peng, Y., Zhao, S., Tian, X., Chen, S., ... & Li, X. (2025). 1.4 million open-source distilled reasoning dataset to empower large language model training. CoRR abs/2503.19633. - Zhou, J., Wei, C., Wang, H., Shen, W., Xie, C., Yuille, A. L., & Kong, T. (2021). IBOT: image BERT pre-training with online tokenizer. CoRR abs/2111.07832.