Fortschritte im Reinforcement Learning durch erhöhte Netzwerktiefe

Kategorien:

No items found.

Freigegeben:

March 16, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Ein Forschungsteam hat signifikante Leistungssteigerungen bei Reinforcement Learning (RL)-Agenten durch Erhöhung der Netzwerktiefe auf bis zu 1.024 Schichten erzielt.
Die Methode, bekannt als Contrastive RL (CRL), ermöglichte 2- bis 50-fache Leistungsverbesserungen bei verschiedenen Aufgaben.
Besonders hervorzuheben sind emergente Verhaltensweisen bei humanoiden Agenten, die bei höheren Schichtzahlen komplexe Fähigkeiten wie aufrechtes Gehen und Überwinden von Hindernissen entwickelten.
Die Tiefe des Netzwerks erwies sich als effektiverer Skalierungsfaktor als die Breite, insbesondere in Verbindung mit spezifischen Architekturtechniken.
Die Ergebnisse deuten darauf hin, dass tiefere Netzwerke auch eine effizientere Nutzung größerer Batch-Größen ermöglichen und zur besseren Generalisierung beitragen.

Die Fortschritte im Bereich des Reinforcement Learning (RL) sind eng mit der Entwicklung leistungsfähiger Algorithmen und Architekturen verbunden. Während in der Sprach- und Bildverarbeitung das Skalieren von Modellen zu erheblichen Durchbrüchen geführt hat, blieb ein ähnlicher Effekt im RL, wo KI-Agenten durch Versuch und Irrtum lernen, lange Zeit schwer fassbar. Ein Forschungsteam der Princeton University und der Technischen Universität Warschau hat nun jedoch eine Methode vorgestellt, die durch die Erhöhung der Netzwerktiefe bemerkenswerte Leistungssteigerungen und das Auftreten neuer Fähigkeiten bei selbstüberwachten Agenten ermöglicht.

Tiefer ist besser: Die Rolle der Netzwerktiefe im Reinforcement Learning

Bisherige RL-Systeme verwenden typischerweise nur zwei bis fünf Netzwerkschichten, während moderne Sprachmodelle wie Llama 3 Hunderte von Schichten umfassen. Das Forschungsteam hat gezeigt, dass eine signifikant größere Netzwerktiefe die Leistung von RL-Agenten je nach Aufgabe um das 2- bis 50-fache verbessern kann. In einigen der anspruchsvollsten Szenarien, beispielsweise wenn eine humanoide Figur ein Labyrinth durchqueren muss, wurden bis zu 1.024 Schichten erfolgreich getestet.

Der Schlüssel zu diesem Erfolg liegt in einem Algorithmus namens Contrastive RL (CRL). Dieser Algorithmus überträgt wesentliche Prinzipien der erfolgreichen Skalierung von Sprachmodellen auf das Reinforcement Learning. Die Fähigkeit, Netzwerke dieser Größenordnung stabil zu trainieren, wurde durch die Kombination von drei etablierten Architekturtechniken erreicht: Residual Connections, die Informationsverluste in tiefen Netzwerken verhindern, eine Normalisierungsmethode für stabilere Lernschritte und eine spezialisierte Aktivierungsfunktion. Die Studie betont, dass die Tiefenskalierung nur funktioniert, wenn alle drei Komponenten gemeinsam angewendet werden.

Contrastive Learning: Eine Lösung für spärliches Feedback

Eine zentrale Herausforderung beim Skalieren von RL-Systemen ist das Problem des spärlichen Feedbacks. Im Gegensatz zum Training von Sprachmodellen, bei dem jedes Wort als Lernsignal dient, erhalten RL-Agenten oft nur sporadische Rückmeldungen darüber, ob ein Ziel erreicht wurde oder nicht. CRL begegnet diesem Problem, indem es dem Agenten eine grundlegende Fähigkeit vermittelt: zu erkennen, ob eine Bewegung Teil eines Pfades ist, der tatsächlich zum Ziel führt. Der Agent lernt dies durch eigenes Ausprobieren, ohne menschliche Beispiele oder vordefinierte Belohnungen. Das System lernt im Wesentlichen durch die wiederholte Frage: Gehört diese Aktion zu einem Pfad, der das Ziel erreicht, oder nicht? Passende Kombinationen werden im Training näher zusammengeführt, während nicht passende auseinandergedrängt werden.

Emergente Fähigkeiten bei humanoiden Agenten

Ein bemerkenswertes Ergebnis der Studie ist das plötzliche Auftreten von Leistungssprüngen, sobald eine kritische Tiefenschwelle überschritten wird. Bei einem simulierten humanoiden Agenten zeigte ein 4-Schichten-Modell lediglich ein unkontrolliertes Hinwerfen zum Ziel. Erst bei 16 Schichten lernte der Agent, aufrecht zu gehen. Bei 256 Schichten entwickelte er akrobatische Strategien und überwand Hindernisse, indem er über Mauern sprang. Diese Verhaltensweisen werden als die ersten dokumentierten ihrer Art in einem zielgerichteten RL-Ansatz für humanoide Umgebungen bezeichnet.

In acht von zehn getesteten Aufgaben übertraf der skalierte CRL-Ansatz alle anderen zielgerichteten RL-Baselines. Bei der schwierigsten Aufgabe war die Verbesserung gegenüber dem Standardnetzwerk um mehr als das Tausendfache größer.

Tiefe versus Breite: Ein effizienterer Skalierungsfaktor

Frühere Forschungsarbeiten konzentrierten sich hauptsächlich auf die Skalierung der Breite von RL-Netzwerken, also der Anzahl der Neuronen pro Schicht. Die aktuelle Studie zeigt jedoch, dass die Tiefe ein effektiverer Hebel ist. Eine Verdopplung der Tiefe auf acht Schichten übertraf selbst die breitesten Netzwerke, während weniger Parameter verwendet wurden. Traditionelle RL-Methoden profitierten in den Experimenten des Teams hingegen nicht von zusätzlicher Tiefe. Die selbstüberwachte Natur von CRL scheint hier der entscheidende Faktor zu sein.

Es ist jedoch zu beachten, dass tiefere Netzwerke längere Trainingszeiten erfordern. Zudem stammen alle bisherigen Ergebnisse aus Simulationen, und die Generalisierbarkeit des Ansatzes auf deutlich unterschiedliche Szenarien ist noch nicht vollständig geklärt. Auch in Offline-Einstellungen, in denen der Agent nicht mehr mit seiner Umgebung interagiert, zeigte zusätzliche Tiefe bisher wenig Nutzen. Der Code ist öffentlich zugänglich.

Bereits 2022 zeigten Forscher der Goethe-Universität Frankfurt, dass Skalierungsgesetze, die von großen Sprachmodellen bekannt sind, auch auf Reinforcement-Learning-Algorithmen wie AlphaZero angewendet werden könnten. Die vorliegende Arbeit liefert weitere Belege dafür, dass Skalierung auch im RL funktioniert, wobei die Netzwerktiefe – und nicht nur die Gesamtgröße – als kritischer Faktor identifiziert wurde.

Bibliographie

- Wang, K., Javali, I., Bortkiewicz, M., Trzciński, T., & Eysenbach, B. (2025). 1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities. arXiv preprint arXiv:2503.14858. - Schreiner, M. (2026, 15. März). RL agents go from face-planting to parkour when researchers keep adding network layers. The Decoder. Abgerufen von https://the-decoder.com/rl-agents-go-from-face-planting-to-parkour-when-researchers-keep-adding-network-layers/ - Trzcinski, T. (2026, 2. Februar). Scaling Depth in Contrastive Reinforcement Learning: Why 1000-Layer Networks Unlock New Capabilities. Tooploox. Abgerufen von https://tooploox.com/scaling-depth-in-contrastive-reinforcement-learning-why-1000-layer-networks-unlock-new-capabilities