Neue Ansätze zur Verbesserung von Sprachmodellen durch Selbstverbesserung im Pretraining

Kategorien:

No items found.

Freigegeben:

January 30, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Die Forschungsarbeit "Self-Improving Pretraining: using post-trained models to pretrain better models" untersucht neue Ansätze zur Verbesserung von Sprachmodellen.
Ein zentraler Aspekt ist die Verwendung von bereits vortrainierten Modellen, um durch Reinforcement Learning (RL) die Qualität, Sicherheit und Faktizität von generierten Inhalten zu steigern.
Kleine Modelle zeigen oft keine Selbstverbesserungsfähigkeit, da ihnen grundlegende Argumentationsfähigkeiten fehlen.
Die "Generation-Verification Gap" (GV-Gap) dient als Schlüsselmetrik zur Bewertung der Selbstverbesserung und zeigt, dass eine stärkere Verifizierung zu besseren Ergebnissen führt.
Iterative Selbstverbesserungsprozesse können schnell an ihre Grenzen stoßen, insbesondere wenn die Diversität der generierten Lösungen abnimmt.
Die Qualität und Diversität der Trainingsdaten spielen eine entscheidende Rolle, wobei im Vortraining Diversität und im Nach-Training Qualität dominieren.

Als Senior Specialist Journalist und Analyst für Mindverse beleuchten wir heute eine wegweisende Entwicklung im Bereich der Künstlichen Intelligenz, die das Potenzial hat, die Leistungsfähigkeit von Sprachmodellen maßgeblich zu beeinflussen: das Konzept des "Self-Improving Pretraining". Diese Methode, bei der nach-trainierte Modelle genutzt werden, um bessere Modelle vorzutrainieren, stellt einen Paradigmenwechsel dar. Sie adressiert kritische Herausforderungen wie die Sicherstellung von Qualität, Sicherheit und Faktizität in den Generierungen großer Sprachmodelle (LLMs), insbesondere angesichts ihrer zunehmenden Verbreitung in realen Anwendungen.

Grundlagen und Motivation des "Self-Improving Pretraining"

Die aktuelle Forschung im Bereich der großen Sprachmodelle (LLMs) konzentriert sich stark darauf, deren Fähigkeiten kontinuierlich zu verbessern. Ein zentraler Ansatz hierfür ist das Pretraining, gefolgt von verschiedenen Phasen des Nach-Trainings, wie zum Beispiel Fine-Tuning und Alignment. Trotz dieser komplexen Pipelines bleiben die Herausforderungen hinsichtlich der Generierungsqualität, der Sicherheit und der Faktizität bestehen. Muster, die während des Pretrainings gelernt wurden, können sich als hartnäckig erweisen und unerwünschte oder fehlerhafte Ausgaben tief im Modell verankern. Hier setzt das Konzept des "Self-Improving Pretraining" an.

Die Rolle von Reinforcement Learning und nach-trainierten Modellen

Ein innovativer Ansatz, wie er in der Forschung von Ellen Xiaoqing Tan et al. beschrieben wird, integriert Reinforcement Learning (RL) direkt in den Pretraining-Prozess. Dabei bewertet ein starkes, bereits nach-trainiertes Modell die Qualität, Sicherheit und Faktizität von Kandidatengenerierungen. Dies umfasst sowohl die ursprünglichen als auch die überarbeiteten Suffixe der generierten Texte. Zu Beginn des Trainings stützt sich der Prozess auf diese Suffixe; mit fortschreitender Verbesserung des Modells werden die hochwertigen "Rollouts" (generierte Textabschnitte) durch RL belohnt. Ziel ist es, von Grund auf Modelle zu entwickeln, die eine höhere Qualität, Sicherheit und Faktizität aufweisen.

Experimentelle Ergebnisse zeigen hierbei signifikante Verbesserungen: Im Vergleich zum Standard-Pretraining konnten relative Verbesserungen von 36,2 % bei der Faktizität und 18,5 % bei der Sicherheit erzielt werden. Die allgemeine Generierungsqualität zeigte sogar eine Verbesserung der Gewinnrate von bis zu 86,3 %. Diese Zahlen unterstreichen das immense Potenzial dieses Ansatzes, die Kernverhaltensweisen eines Modells bereits im Pretraining zu formen und somit die Entstehung unsicherer oder halluzinierter Ausgaben von vornherein zu verhindern.

Die "Generation-Verification Gap" als Schlüsselmetrik

Um die Selbstverbesserungsfähigkeiten von LLMs präzise zu analysieren, wurde die "Generation-Verification Gap" (GV-Gap) als zentrale Metrik eingeführt. Diese Metrik quantifiziert den zusätzlichen "Präzisionsgewinn", der durch die Verifizierung der Modellausgaben erzielt wird, im Vergleich zur reinen Generierung. Ein positiver GV-Gap deutet darauf hin, dass die Verifizierung einen verwertbaren Signal liefert, der zur Verbesserung des Modells genutzt werden kann.

Skalierungseigenschaften und Modellkapazität

Studien zeigen, dass die relative GV-Gap mit den Pre-Train-Flops (ein Maß für die Rechenleistung im Vortraining) monoton ansteigt. Dies deutet auf eine Skalierungseigenschaft hin: Größere Modelle, die mit mehr Rechenleistung vor-trainiert wurden, weisen ein größeres Potenzial zur Selbstverbesserung auf, insbesondere bei stabilen Verifizierungsmethoden wie CoT-Score (Chain-of-Thought Scoring).

Interessanterweise weisen kleine Modelle, wie zum Beispiel Qwen-1.5 0.5B oder Llama-2 7B, oft eine nicht-positive GV-Gap auf. Dies wird darauf zurückgeführt, dass diesen kleineren Modellen ein Mindestmaß an Anweisungsbefolgung und Argumentationsfähigkeiten fehlt, die für eine effektive Selbstverbesserung notwendig sind. Die Fähigkeit zur Selbstverbesserung ist demnach eng an die inhärenten Denk- und Planungsfähigkeiten gekoppelt, die ein Modell während des Pretrainings entwickelt.

Querverifizierung und optimale Konfigurationen

Bei der Querverifizierung, bei der Generator und Verifizierer unterschiedliche Modelle sein können, zeigt sich, dass die GV-Gap mit der Kapazität des Verifizierermodells zunimmt und mit der Kapazität des Generatormodells abnimmt. Dies bedeutet, dass ein stärkeres Verifizierermodell die Qualität der Generierungen eines schwächeren Modells effektiver bewerten und somit zur Verbesserung beitragen kann. Die Herausforderung besteht darin, eine rechenoptimale Konfiguration zu finden, die die Effizienz maximiert, ohne die Komplexität und die damit verbundenen Kosten zu erhöhen.

Grenzen der Selbstverbesserung: Nicht-verbesserbare Aufgaben und Diversität

Trotz der vielversprechenden Potenziale der Selbstverbesserung gibt es auch Aufgabenbereiche, in denen dieser Ansatz an seine Grenzen stößt.

Unverbesserbare Aufgaben

Einige Aufgaben, insbesondere solche, die reines Faktenwissen abfragen, profitieren kaum von den aktuellen Selbstverbesserungsrahmen. Bei Trivia-Aufgaben beispielsweise ist die Generierung einer korrekten Antwort hauptsächlich davon abhängig, ob das Modell mit den relevanten Fakten trainiert wurde. Die Verifizierung liefert hier wenig zusätzliches Signal, da die Komplexität von Generierung und Verifizierung ähnlich ist. Die GV-Gap bleibt in solchen Fällen oft nahe null oder sogar negativ.

Ein weiteres Beispiel sind Sudoku-Rätsel. Obwohl die Verifizierung einer Sudoku-Lösung (P-Problem) wesentlich einfacher ist als ihre Generierung (NP-hartes Problem), zeigen die meisten Modelle keine signifikante Selbstverbesserung. Nur die größten Modelle (z.B. Qwen-1.5/2 72B) weisen hier eine nennenswerte Verbesserung auf. Dies deutet darauf hin, dass selbst bei einer klaren Trennung der Komplexität von Generierung und Verifizierung bestimmte grundlegende Denk- und Planungsfähigkeiten des Modells entscheidend sind, die kleineren Modellen möglicherweise fehlen.

Iterative Selbstverbesserung und Diversitätsverlust

Die iterative Selbstverbesserung, bei der Modelle in mehreren Runden ihre eigenen Ausgaben verfeinern, zeigt ebenfalls Grenzen auf. Ohne die Einführung neuer Informationen erreicht die Verbesserung typischerweise nach zwei bis drei Runden eine Sättigung. Dies ist unabhängig von der Modellkapazität. Ein wesentlicher Grund hierfür ist der Rückgang der effektiven Diversität der generierten Lösungen. Während die Genauigkeit für eine kleine Anzahl von Generierungen (pass@k für kleines k) ansteigt, nimmt die Diversität für eine größere Anzahl ab (pass@k für großes k). Dies kann dazu führen, dass das Modell bei seltenen, aber korrekten Antworten nicht mehr zuverlässig ist und stattdessen auf falsche Lösungen konvergiert.

Verifizierungsmechanismen und Ensemble-Ansätze

Die Auswahl und Kombination von Verifizierungsmechanismen spielt eine wichtige Rolle für die Effektivität der Selbstverbesserung.

Vergleich von Verifizierungsmechanismen

Die Forschung unterscheidet verschiedene Verifizierungsmechanismen, darunter:

Multiple Choice (MC): Das LLM kennzeichnet Antworten als "Korrekt" oder "Inkorrekt" basierend auf der Wahrscheinlichkeit des Wortes "Korrekt".
Chain of Thought (CoT): Das LLM bewertet Antworten und liefert Begründungen (CoT), wobei der Score aus der Antwort extrahiert wird (z.B. CoT-Score von 1 bis 10 oder CoT-Binary).
Tournament (To): Hierbei werden generierte Antworten in einem Turnier verglichen, um die beste Antwort zu ermitteln.

Es zeigt sich, dass CoT-Verifizierung im Allgemeinen stabiler ist als MC-Verifizierung, insbesondere bei mittelgroßen bis großen Modellen. MC-Verifizierung kann bei kleineren Modellen sogar zu negativen GV-Gaps führen. Die Verteilung der GV-Gaps und die optimalen Verifizierungsschwellenwerte sind über verschiedene Modelle hinweg konsistent, was die Übertragbarkeit von Konfigurationen von kleineren auf größere Modelle ermöglicht.

Verbesserung durch Ensemble-Methoden

Die geringe Korrelation zwischen den Ausgaben verschiedener Verifizierungsmechanismen deutet auf ein Potenzial zur Leistungssteigerung durch deren Kombination hin. Einfache Ensemble-Heuristiken, wie die logische UND-Verknüpfung von Verifizierungsfiltern (d.h., eine Antwort wird nur akzeptiert, wenn sie alle Filter besteht), können die Verifizierungsleistung verbessern. Diese Methode zeigt konsistente Verbesserungen über verschiedene Modellgrößen hinweg, was darauf hindeutet, dass Strategien, die mit kleineren Modellen entwickelt wurden, effektiv auf größere Modelle angewendet werden können, sofern alle Verifizierungen gültig sind.

Implikationen für die Praxis und zukünftige Forschungsrichtungen

Die Erkenntnisse aus der Erforschung des "Self-Improving Pretraining" haben weitreichende praktische Implikationen für die Entwicklung und Optimierung von LLMs, insbesondere im B2B-Bereich, wo Qualität, Sicherheit und Effizienz von größter Bedeutung sind.

Praktische Anwendung im B2B-Kontext

Für Unternehmen, die LLMs einsetzen oder entwickeln, liefern diese Ergebnisse wertvolle Anhaltspunkte:

Strategische Datenallokation: Es wird deutlich, dass die Art und Weise, wie Daten in den Pretraining- und Post-Training-Phasen eingesetzt werden, entscheidend ist. Diversität der Daten im Pretraining und Qualität der Daten im Post-Training (insbesondere Daten mit langen Argumentationsketten) sind hierbei Schlüsselfaktoren.
Modellwahl und Aufgabenanpassung: Kleinere Modelle sind möglicherweise nicht für Selbstverbesserungsaufgaben geeignet, die komplexe Argumentationsfähigkeiten erfordern. Eine sorgfältige Auswahl der Modellgröße in Abhängigkeit von den spezifischen Aufgaben ist daher essentiell.
Optimierung der Verifizierung: Der Einsatz von stabilen Verifizierungsmechanismen wie CoT-Score und die Erwägung von Ensemble-Methoden können die Zuverlässigkeit und Genauigkeit der Modellausgaben erheblich steigern.
Umgang mit Diversitätsverlust: Bei iterativen Selbstverbesserungsprozessen muss der potenzielle Verlust an Lösungsvielfalt berücksichtigt werden, um nicht in eine Konvergenz auf suboptimale oder falsche Antworten zu geraten.

Zukünftige Forschungsfelder

Die vorliegende Forschung eröffnet mehrere spannende Richtungen für weitere Untersuchungen:

Erweiterung der Skalierungsgesetze: Eine umfassendere Untersuchung der Skalierungsgesetze könnte robustere empirische Richtlinien für die Ressourcenzuweisung im Pretraining und Post-Training liefern.
Rechenoptimale Methoden: Die Identifizierung rechenoptimaler Methoden für die Selbst- und Querverbesserung über verschiedene Aufgaben hinweg bleibt eine kritische Herausforderung.
Minderung des Diversitätsrückgangs: Die Entwicklung von Strategien zur Minderung des Rückgangs der effektiven Diversität bei iterativer Selbstverbesserung bietet erhebliche empirische Vorteile.
Kompositionelle Verifizierung: Eine vertiefte Erforschung der Kombination verschiedener Verifizierungsmechanismen könnte die Effizienz der Selbstverbesserung weiter steigern.

Das Konzept des "Self-Improving Pretraining" markiert einen wichtigen Schritt hin zu robusteren, zuverlässigeren und faktengetreueren LLMs. Indem wir die Mechanismen der Selbstverbesserung besser verstehen und optimieren, können wir das volle Potenzial dieser Technologien für vielfältige Anwendungen erschließen.

Bibliography - Huang, J., Gu, S. S., Hou, L., Wu, Y., Wang, X., Yu, H., & Han, J. (2022). Large Language Models Can Self-Improve. arXiv preprint arXiv:2210.11610. - Tan, E. X., Dhuliawala, S., Xu, J., Yu, P., Sukhbaatar, S., Weston, J., & Golovneva, O. (2026). Self-Improving Pretraining: using post-trained models to pretrain better models. arXiv preprint arXiv:2601.21343. - Wu, T., Li, X., & Liu, P. (2023). Progress or Regress? Self-Improvement Reversal in Post-training. arXiv preprint arXiv:2407.05013. - Song, Y., Zhang, H., Eisenach, C., Kakade, S. M., Foster, D., & Ghai, U. (2024). Mind the Gap: Examining the Self-Improvement Capabilities of Large Language Models. OpenReview. - Akter, S. N., Prabhumoye, S., Nyberg, E., Patwary, M., Shoeybi, M., Choi, Y., & Catanzaro, B. (2025). Front-Loading Reasoning: The Synergy between Pretraining and Post-Training Data. NVIDIA Research. - Reed, C. J., Yue, X., Nrusimha, A., Ebrahimi, S., Vijaykumar, V., Mao, R., Li, B., Zhang, S., Guillory, D., Metzger, S., & Keutzer, K. (2022). Self-Supervised Pretraining Improves Self-Supervised Pretraining. WACV. - Parmar, J., Satheesh, S., Patwary, M., Shoeybi, M., & Catanzaro, B. (2024). Reuse, Don't Retrain: A Recipe for Continued Pretraining of Language Models. arXiv preprint arXiv:2407.07263. - Prasad, A., Yuan, W., Pang, R. Y., Xu, J., Fazel-Zarandi, M., Bansal, M., Sukhbaatar, S., Weston, J., & Yu, J. (2025). Self-Consistency Preference Optimization. arXiv preprint arXiv:2411.04109.