Die stetige Verbesserung großer Sprachmodelle (LLMs) wird oft mit der schieren Menge an Trainingsdaten in Verbindung gebracht. Eine neue Forschungsarbeit stellt diese Annahme in Frage und zeigt, dass neben der Datenskalierung auch die Kompression interner Repräsentationen eine entscheidende Rolle für die Generalisierungsfähigkeit von LLMs spielt. Die Autoren präsentieren theoretische Beweise und empirische Ergebnisse, die diese These untermauern und zu einem neuen Trainingsalgorithmus führen.
Die Forscher führen das Konzept des "Information Bottleneck Language Modeling" (IBLM) ein. IBLM formuliert Sprachmodellierung als ein Optimierungsproblem mit Nebenbedingungen: Die Entropie der internen Repräsentationen soll minimiert werden, während gleichzeitig eine optimale Vorhersageleistung gewährleistet ist. Dieser Ansatz zielt darauf ab, die relevantesten Informationen für die Sprachmodellierung zu extrahieren und irrelevante Details zu verwerfen.
Empirische Beobachtungen zeigen einen emergenten Zyklus aus Memorization und Kompression während des LLM-Pretrainings. Dieser Zyklus äußert sich in einer oszillierenden positiven/negativen Gradientenausrichtung zwischen der Cross-Entropy-Loss-Funktion und der Matrix-Based Entropy (MBE), einem Maß für die Repräsentationsentropie. Dieses Muster spiegelt den prädiktiv-kompressiven Kompromiss von IBLM wider und weist Parallelen zum biologischen Wechsel zwischen Lernen im Wachzustand und Konsolidierung im Schlaf auf.
Inspiriert von diesen Beobachtungen schlagen die Forscher den "Gated Phase Transition" (GAPT) Trainingsalgorithmus vor. GAPT wechselt adaptiv zwischen Memorization- und Kompressionsphasen. In der Memorization-Phase konzentriert sich das Modell auf das Erlernen der Trainingsdaten, während in der Kompressionsphase die internen Repräsentationen optimiert und komprimiert werden. Dieser Ansatz ermöglicht eine effizientere Nutzung der Informationen und verbessert die Generalisierungsfähigkeit des Modells.
Die Anwendung von GAPT auf das Pretraining von GPT-2 mit dem FineWeb-Datensatz führte zu einer Reduktion der MBE um 50% und einer Verbesserung der Cross-Entropy um 4,8%. Darüber hinaus konnte die Out-of-Distribution (OOD) Generalisierung in einer Pretraining-Aufgabe zur arithmetischen Multiplikation um 35% verbessert werden. In einem Szenario, das katastrophales Vergessen simuliert, reduzierte GAPT Interferenzen durch Kompression und Trennung von Repräsentationen und erzielte eine Verbesserung der Trennung um 97% – analog zur Funktion der Schlafkonsolidierung.
Die Ergebnisse dieser Forschung unterstreichen die Bedeutung der Kompression interner Repräsentationen für die Verbesserung der Generalisierungsfähigkeit von LLMs. Der GAPT-Algorithmus bietet einen vielversprechenden Ansatz zur Optimierung des Trainingsprozesses und zur Entwicklung leistungsfähigerer Sprachmodelle. Zukünftige Forschung könnte sich auf die weitere Untersuchung des Memorization-Compression-Zyklus und die Entwicklung adaptiverer Trainingsalgorithmen konzentrieren.
Bibliographie: - https://arxiv.org/abs/2505.08727 - https://huggingface.co/papers/2505.08727 - http://arxiv.org/pdf/2505.08727 - https://paperreading.club/page?id=305257 - https://www.researchgate.net/publication/386946932_The_Pitfalls_of_Memorization_When_Memorization_Hurts_Generalization - https://chatpaper.com/chatpaper/?id=5&date=1747152000&page=1 - https://huggingface.co/papers - https://papers.nips.cc/paper_files/paper/2023/file/be7430d22a4dae8516894e32f2fcc6db-Paper-Conference.pdf - https://www.biorxiv.org/content/10.1101/2023.05.28.542435v1.full.pdf - https://www.researchgate.net/publication/351511073_Benchmarking_down-scaled_not_so_large_pre-trained_language_models