Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
In der dynamischen Landschaft der künstlichen Intelligenz stellt die Fähigkeit, komplexe Informationen über sehr lange Kontexte hinweg zu verarbeiten und zu verstehen, eine zentrale Herausforderung dar. Traditionelle Methoden des verstärkenden Lernens (Reinforcement Learning, RL) stoßen hier oft an ihre Grenzen, insbesondere wenn es um die Gestaltung von Daten und die Optimierung heterogener Belohnungen geht. Eine aktuelle Entwicklung, die unter dem Namen GoLongRL bekannt ist, bietet einen vielversprechenden, vollständig quelloffenen Ansatz, um diese Einschränkungen zu überwinden und die Leistung von Sprachmodellen (Large Language Models, LLMs) im Umgang mit langen Kontexten signifikant zu verbessern.
GoLongRL, ein Akronym für "Capability-Oriented Long Context Reinforcement Learning with Multitask Alignment", präsentiert eine innovative Methode für das Post-Training von LLMs. Der Kern dieses Ansatzes liegt in einer fähigkeitsorientierten Datenkonstruktion und einer speziellen Optimierungsmethode namens TMN-Reweight. Diese Kombination zielt darauf ab, die Leistung von LLMs bei Aufgaben zu steigern, die ein tiefes Verständnis und eine präzise Verarbeitung umfangreicher Textmengen erfordern.
Bestehende RL-Methoden für lange Kontexte konzentrieren sich oft auf die Entwicklung immer komplexerer Abrufpfade für Daten. Dies führt jedoch häufig zu einer homogenen Aufgabenabdeckung und Belohnungsformulierungen, die den praktischen Anforderungen langer Kontexte nicht ausreichend gerecht werden. Die Fähigkeit, Informationen über tausende von Token hinweg zu integrieren, ist entscheidend für reale Anwendungen, von der Analyse juristischer Dokumente bis zur Fehlersuche in umfangreichen Codebasen. Während moderne Modelle längere Kontextfenster unterstützen, zeichnen sie sich primär durch reinen Abruf aus, wodurch das Argumentieren über lange Dokumente eine anhaltende Herausforderung bleibt.
Das GoLongRL-Projekt leistet zwei wesentliche Beiträge zur Forschung und Entwicklung im Bereich des verstärkenden Lernens mit langen Kontexten:
GoLongRL stellt einen neuen Datensatz von 23.000 RLVR-Beispielen (Reinforcement Learning with Verifiable Rewards) bereit, der vollständig quelloffen ist. Dies umfasst die komplette Konstruktionspipeline und den gesamten Trainingscode. Der Datensatz ist nach einer Taxonomie von Langkontext-Fähigkeiten strukturiert und deckt neun Aufgabentypen ab, von denen jeder mit einer spezifischen Metrik zur Bewertung verknüpft ist. Er besteht sowohl aus kuratierten Open-Source-Beispielen etablierter Korpora als auch aus synthetischen Beispielen, deren Frage-Antwort-Paare aus realen Quelldokumenten wie Büchern, wissenschaftlichen Arbeiten und mehrstufigen Dialogen generiert wurden. Diese breitere Abdeckung und größere Belohnungsvielfalt tragen erheblich zur Verbesserung der Langkontext-Fähigkeiten bei.
Die offene Bereitstellung der Daten und des Codes ermöglicht es der Forschungsgemeinschaft, die Ergebnisse zu reproduzieren, zu auditieren und darauf aufzubauen. Dies steht im Gegensatz zu vielen anderen Ansätzen, die oft nur "Gewichte" oder Teillösungen veröffentlichen, was die Transparenz und Weiterentwicklung erschwert.
Ein weiteres zentrales Element ist TMN-Reweight (Task-level Mean Normalization Reweight). Diese Methode wurde entwickelt, um Optimierungsprobleme zu lösen, die sich aus heterogenen Belohnungen ergeben. Sie kombiniert eine aufgabenebene mittlere Normalisierung zur Angleichung der Belohnungsskalen über verschiedene Aufgaben hinweg mit einer schwierigkeitsadaptiven Gewichtung für eine zuverlässigere Vorteilsabschätzung. Diese Technik verbessert die durchschnittliche Leistung gegenüber herkömmlichen GRPO-Setups (Group Relative Policy Optimization) und sorgt dafür, dass allgemeine Fähigkeiten erhalten bleiben oder sogar verbessert werden.
Die TMN-Reweight-Methode stabilisiert den Lernprozess, indem sie sicherstellt, dass keine einzelne Aufgabe das Training dominiert, und trägt so zu einem ausgewogeneren Lernen bei.
Die mit GoLongRL trainierten Modelle zeigen bemerkenswerte Ergebnisse. Ein GoLongRL-30B-A3B-Modell erzielt eine Langkontext-Leistung, die mit der von DeepSeek-R1-0528 und Qwen3-235B-A22B-Thinking-2507 vergleichbar ist, obwohl es eine deutlich geringere Anzahl aktivierter Parameter aufweist. Dies deutet darauf hin, dass die breitere Datenabdeckung und die größere Belohnungsvielfalt erhebliche Vorteile für die Verbesserung der Langkontext-Fähigkeiten mit sich bringen.
Der neue Datensatz allein übertrifft im selben Vanilla-GRPO-Setup den geschlossenen QwenLong-L1.5-Datensatz um signifikante Punkte, sowohl bei 4B- als auch bei 30B-Modellen. Dies unterstreicht die Qualität und Wirksamkeit der fähigkeitsorientierten Datenkonstruktion.
Ein interessantes Phänomen, das bei der Anwendung von GoLongRL beobachtet wurde, ist die Entwicklung eines emergenten "Planen-Abrufen-Begründen-Überprüfen"-Musters. Dieses menschenähnliche Denkmuster ermöglicht es den Modellen, Probleme in Teilschritte zu zerlegen, relevante Informationen abzurufen, zu begründen und bei Unsicherheiten aktiv zu überprüfen. Dieses strukturierte Vorgehen führt zu hochgradig logischen und zuverlässigen Lösungen und verbessert auch die herkömmlichen Langkontext-Abrufaufgaben.
Das erlernte Verhalten generalisiert sich zudem über die ursprüngliche Trainingslänge von 16.000 Token hinaus auf Kontexte von bis zu 128.000 Token. Dies ermöglicht ein Training auf kürzeren Sequenzen bei gleichzeitiger Aufrechterhaltung einer starken Leistung bei längeren Kontexten, was die Robustheit und Skalierbarkeit des GoLongRL-Ansatzes hervorhebt.
Andere Ansätze wie LoongRL und LOGO befassen sich ebenfalls mit der Verbesserung des Langkontext-Reasonings. LoongRL, das auf einer datengesteuerten RL-Methode basiert, verwendet die KeyChain-Methode, um kurze Multi-Hop-QA-Datensätze in hochschwierige Langkontext-Aufgaben umzuwandeln. Es erreicht ebenfalls eine vergleichbare Leistung wie größere Modelle und verbessert die Fähigkeit zum Abrufen langer Kontexte. LOGO konzentriert sich auf die effiziente Präferenzoptimierung zur Verbesserung der Generierungsleistung von Langkontext-Modellen und zur Skalierung von Kontextfenstern.
GoLongRL unterscheidet sich durch seinen Fokus auf eine umfassende fähigkeitsorientierte Datenkonstruktion und die spezifische TMN-Reweight-Methode, die auf heterogene Multitask-Belohnungen zugeschnitten ist, während es die Transparenz durch Open-Source-Veröffentlichung maximiert.
GoLongRL stellt einen bedeutenden Fortschritt im Bereich des verstärkenden Lernens mit langen Kontexten dar. Durch seine fähigkeitsorientierte Datenkonstruktion und die innovative TMN-Reweight-Methode ermöglicht es LLMs, komplexe Aufgaben über ausgedehnte Textmengen hinweg effizienter und präziser zu lösen. Die vollständige Open-Source-Veröffentlichung des Ansatzes fördert zudem die weitere Forschung und Entwicklung in diesem kritischen Bereich der künstlichen Intelligenz. Die Fähigkeit, menschenähnliche Denkprozesse zu imitieren und auf längere Kontexte zu verallgemeinern, positioniert GoLongRL als einen wichtigen Baustein für zukünftige KI-Anwendungen, die ein tiefgreifendes Textverständnis erfordern.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen