Neuer Ansatz für verstärkendes Lernen mit langen Kontexten: GoLongRL

Kategorien:

No items found.

Freigegeben:

May 20, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

GoLongRL ist ein Open-Source-Ansatz für verstärkendes Lernen mit langen Kontexten (Long-Context Reinforcement Learning, RL) und verifizierbaren Belohnungen (RLVR).
Das Projekt nutzt eine fähigkeitsorientierte Datenkonstruktion und die TMN-Reweight-Methode zur Optimierung heterogener Multitask-Belohnungen.
Ein neuartiger Datensatz mit 23.000 RLVR-Beispielen, der neun Aufgabentypen abdeckt, wurde vollständig veröffentlicht.
Modelle, die mit GoLongRL trainiert wurden, zeigen eine vergleichbare Leistung wie wesentlich größere Modelle bei der Verarbeitung langer Kontexte.
TMN-Reweight trägt zur Stabilität des Lernprozesses bei, indem es Belohnungsskalen angleicht und eine zuverlässigere Vorteilsabschätzung ermöglicht.
GoLongRL fördert ein emergentes "Planen-Abrufen-Begründen-Überprüfen"-Muster, das sich über die Trainingslänge hinaus verallgemeinern lässt.

In der dynamischen Landschaft der künstlichen Intelligenz stellt die Fähigkeit, komplexe Informationen über sehr lange Kontexte hinweg zu verarbeiten und zu verstehen, eine zentrale Herausforderung dar. Traditionelle Methoden des verstärkenden Lernens (Reinforcement Learning, RL) stoßen hier oft an ihre Grenzen, insbesondere wenn es um die Gestaltung von Daten und die Optimierung heterogener Belohnungen geht. Eine aktuelle Entwicklung, die unter dem Namen GoLongRL bekannt ist, bietet einen vielversprechenden, vollständig quelloffenen Ansatz, um diese Einschränkungen zu überwinden und die Leistung von Sprachmodellen (Large Language Models, LLMs) im Umgang mit langen Kontexten signifikant zu verbessern.

GoLongRL: Ein fähigkeitsorientierter Ansatz für langes Kontext-RL

GoLongRL, ein Akronym für "Capability-Oriented Long Context Reinforcement Learning with Multitask Alignment", präsentiert eine innovative Methode für das Post-Training von LLMs. Der Kern dieses Ansatzes liegt in einer fähigkeitsorientierten Datenkonstruktion und einer speziellen Optimierungsmethode namens TMN-Reweight. Diese Kombination zielt darauf ab, die Leistung von LLMs bei Aufgaben zu steigern, die ein tiefes Verständnis und eine präzise Verarbeitung umfangreicher Textmengen erfordern.

Die Herausforderung langer Kontexte

Bestehende RL-Methoden für lange Kontexte konzentrieren sich oft auf die Entwicklung immer komplexerer Abrufpfade für Daten. Dies führt jedoch häufig zu einer homogenen Aufgabenabdeckung und Belohnungsformulierungen, die den praktischen Anforderungen langer Kontexte nicht ausreichend gerecht werden. Die Fähigkeit, Informationen über tausende von Token hinweg zu integrieren, ist entscheidend für reale Anwendungen, von der Analyse juristischer Dokumente bis zur Fehlersuche in umfangreichen Codebasen. Während moderne Modelle längere Kontextfenster unterstützen, zeichnen sie sich primär durch reinen Abruf aus, wodurch das Argumentieren über lange Dokumente eine anhaltende Herausforderung bleibt.

Zwei Schlüsselbeiträge von GoLongRL

Das GoLongRL-Projekt leistet zwei wesentliche Beiträge zur Forschung und Entwicklung im Bereich des verstärkenden Lernens mit langen Kontexten:

1. Fähigkeitsorientierte Datenkonstruktion und vollständige Open-Source-Veröffentlichung

GoLongRL stellt einen neuen Datensatz von 23.000 RLVR-Beispielen (Reinforcement Learning with Verifiable Rewards) bereit, der vollständig quelloffen ist. Dies umfasst die komplette Konstruktionspipeline und den gesamten Trainingscode. Der Datensatz ist nach einer Taxonomie von Langkontext-Fähigkeiten strukturiert und deckt neun Aufgabentypen ab, von denen jeder mit einer spezifischen Metrik zur Bewertung verknüpft ist. Er besteht sowohl aus kuratierten Open-Source-Beispielen etablierter Korpora als auch aus synthetischen Beispielen, deren Frage-Antwort-Paare aus realen Quelldokumenten wie Büchern, wissenschaftlichen Arbeiten und mehrstufigen Dialogen generiert wurden. Diese breitere Abdeckung und größere Belohnungsvielfalt tragen erheblich zur Verbesserung der Langkontext-Fähigkeiten bei.

Die offene Bereitstellung der Daten und des Codes ermöglicht es der Forschungsgemeinschaft, die Ergebnisse zu reproduzieren, zu auditieren und darauf aufzubauen. Dies steht im Gegensatz zu vielen anderen Ansätzen, die oft nur "Gewichte" oder Teillösungen veröffentlichen, was die Transparenz und Weiterentwicklung erschwert.

2. TMN-Reweight für heterogene Multitask-Optimierung

Ein weiteres zentrales Element ist TMN-Reweight (Task-level Mean Normalization Reweight). Diese Methode wurde entwickelt, um Optimierungsprobleme zu lösen, die sich aus heterogenen Belohnungen ergeben. Sie kombiniert eine aufgabenebene mittlere Normalisierung zur Angleichung der Belohnungsskalen über verschiedene Aufgaben hinweg mit einer schwierigkeitsadaptiven Gewichtung für eine zuverlässigere Vorteilsabschätzung. Diese Technik verbessert die durchschnittliche Leistung gegenüber herkömmlichen GRPO-Setups (Group Relative Policy Optimization) und sorgt dafür, dass allgemeine Fähigkeiten erhalten bleiben oder sogar verbessert werden.

Die TMN-Reweight-Methode stabilisiert den Lernprozess, indem sie sicherstellt, dass keine einzelne Aufgabe das Training dominiert, und trägt so zu einem ausgewogeneren Lernen bei.

Leistung und Ergebnisse

Die mit GoLongRL trainierten Modelle zeigen bemerkenswerte Ergebnisse. Ein GoLongRL-30B-A3B-Modell erzielt eine Langkontext-Leistung, die mit der von DeepSeek-R1-0528 und Qwen3-235B-A22B-Thinking-2507 vergleichbar ist, obwohl es eine deutlich geringere Anzahl aktivierter Parameter aufweist. Dies deutet darauf hin, dass die breitere Datenabdeckung und die größere Belohnungsvielfalt erhebliche Vorteile für die Verbesserung der Langkontext-Fähigkeiten mit sich bringen.

Der neue Datensatz allein übertrifft im selben Vanilla-GRPO-Setup den geschlossenen QwenLong-L1.5-Datensatz um signifikante Punkte, sowohl bei 4B- als auch bei 30B-Modellen. Dies unterstreicht die Qualität und Wirksamkeit der fähigkeitsorientierten Datenkonstruktion.

Emergente Denkprozesse

Ein interessantes Phänomen, das bei der Anwendung von GoLongRL beobachtet wurde, ist die Entwicklung eines emergenten "Planen-Abrufen-Begründen-Überprüfen"-Musters. Dieses menschenähnliche Denkmuster ermöglicht es den Modellen, Probleme in Teilschritte zu zerlegen, relevante Informationen abzurufen, zu begründen und bei Unsicherheiten aktiv zu überprüfen. Dieses strukturierte Vorgehen führt zu hochgradig logischen und zuverlässigen Lösungen und verbessert auch die herkömmlichen Langkontext-Abrufaufgaben.

Das erlernte Verhalten generalisiert sich zudem über die ursprüngliche Trainingslänge von 16.000 Token hinaus auf Kontexte von bis zu 128.000 Token. Dies ermöglicht ein Training auf kürzeren Sequenzen bei gleichzeitiger Aufrechterhaltung einer starken Leistung bei längeren Kontexten, was die Robustheit und Skalierbarkeit des GoLongRL-Ansatzes hervorhebt.

Vergleich mit verwandten Arbeiten

Andere Ansätze wie LoongRL und LOGO befassen sich ebenfalls mit der Verbesserung des Langkontext-Reasonings. LoongRL, das auf einer datengesteuerten RL-Methode basiert, verwendet die KeyChain-Methode, um kurze Multi-Hop-QA-Datensätze in hochschwierige Langkontext-Aufgaben umzuwandeln. Es erreicht ebenfalls eine vergleichbare Leistung wie größere Modelle und verbessert die Fähigkeit zum Abrufen langer Kontexte. LOGO konzentriert sich auf die effiziente Präferenzoptimierung zur Verbesserung der Generierungsleistung von Langkontext-Modellen und zur Skalierung von Kontextfenstern.

GoLongRL unterscheidet sich durch seinen Fokus auf eine umfassende fähigkeitsorientierte Datenkonstruktion und die spezifische TMN-Reweight-Methode, die auf heterogene Multitask-Belohnungen zugeschnitten ist, während es die Transparenz durch Open-Source-Veröffentlichung maximiert.

Fazit

GoLongRL stellt einen bedeutenden Fortschritt im Bereich des verstärkenden Lernens mit langen Kontexten dar. Durch seine fähigkeitsorientierte Datenkonstruktion und die innovative TMN-Reweight-Methode ermöglicht es LLMs, komplexe Aufgaben über ausgedehnte Textmengen hinweg effizienter und präziser zu lösen. Die vollständige Open-Source-Veröffentlichung des Ansatzes fördert zudem die weitere Forschung und Entwicklung in diesem kritischen Bereich der künstlichen Intelligenz. Die Fähigkeit, menschenähnliche Denkprozesse zu imitieren und auf längere Kontexte zu verallgemeinern, positioniert GoLongRL als einen wichtigen Baustein für zukünftige KI-Anwendungen, die ein tiefgreifendes Textverständnis erfordern.

Bibliographie

- Lv, M., Mei, T., Du, T., Chen, J., Su, Z., Chen, Z., Wang, Z., Wu, Z., Pan, R., Liang, J., Tang, R., & Li, H. (2026). GoLongRL: Capability-Oriented Long Context Reinforcement Learning with Multitask Alignment. arXiv. - AI Research Roundup. (2026, 20. Mai). GoLongRL: Multitask RL for Long-Context LLMs [Video]. YouTube. - Wang, S., Zhang, G., Zhang, L. L., Shang, N., Yang, F., Chen, D., & Yang, M. (2025). LoongRL: Reinforcement Learning for Advanced Reasoning over Long Contexts. OpenReview. - Wang, S., Zhang, G., Zhang, L. L., Shang, N., Yang, F., Chen, D., & Yang, M. (2025). Reinforcement Learning for Advanced Reasoning over Long Contexts. arXiv. - Tang, Z., Sun, Z., Li, J., Zhu, Q., & Zhang, M. (2025). LOGO --- Long cOntext aliGnment via efficient preference Optimization. OpenReview. - rStar-RL. (2025). rStar-RL/LoongRL. GitHub. - Sodhani, S., Zhang, A., & Pineau, J. (2021). Multi-Task Reinforcement Learning with Context-based Representations. arXiv.