Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Fortschritte im Bereich des Reinforcement Learning (RL) sind eng mit der Entwicklung leistungsfähiger Algorithmen und Architekturen verbunden. Während in der Sprach- und Bildverarbeitung das Skalieren von Modellen zu erheblichen Durchbrüchen geführt hat, blieb ein ähnlicher Effekt im RL, wo KI-Agenten durch Versuch und Irrtum lernen, lange Zeit schwer fassbar. Ein Forschungsteam der Princeton University und der Technischen Universität Warschau hat nun jedoch eine Methode vorgestellt, die durch die Erhöhung der Netzwerktiefe bemerkenswerte Leistungssteigerungen und das Auftreten neuer Fähigkeiten bei selbstüberwachten Agenten ermöglicht.
Bisherige RL-Systeme verwenden typischerweise nur zwei bis fünf Netzwerkschichten, während moderne Sprachmodelle wie Llama 3 Hunderte von Schichten umfassen. Das Forschungsteam hat gezeigt, dass eine signifikant größere Netzwerktiefe die Leistung von RL-Agenten je nach Aufgabe um das 2- bis 50-fache verbessern kann. In einigen der anspruchsvollsten Szenarien, beispielsweise wenn eine humanoide Figur ein Labyrinth durchqueren muss, wurden bis zu 1.024 Schichten erfolgreich getestet.
Der Schlüssel zu diesem Erfolg liegt in einem Algorithmus namens Contrastive RL (CRL). Dieser Algorithmus überträgt wesentliche Prinzipien der erfolgreichen Skalierung von Sprachmodellen auf das Reinforcement Learning. Die Fähigkeit, Netzwerke dieser Größenordnung stabil zu trainieren, wurde durch die Kombination von drei etablierten Architekturtechniken erreicht: Residual Connections, die Informationsverluste in tiefen Netzwerken verhindern, eine Normalisierungsmethode für stabilere Lernschritte und eine spezialisierte Aktivierungsfunktion. Die Studie betont, dass die Tiefenskalierung nur funktioniert, wenn alle drei Komponenten gemeinsam angewendet werden.
Eine zentrale Herausforderung beim Skalieren von RL-Systemen ist das Problem des spärlichen Feedbacks. Im Gegensatz zum Training von Sprachmodellen, bei dem jedes Wort als Lernsignal dient, erhalten RL-Agenten oft nur sporadische Rückmeldungen darüber, ob ein Ziel erreicht wurde oder nicht. CRL begegnet diesem Problem, indem es dem Agenten eine grundlegende Fähigkeit vermittelt: zu erkennen, ob eine Bewegung Teil eines Pfades ist, der tatsächlich zum Ziel führt. Der Agent lernt dies durch eigenes Ausprobieren, ohne menschliche Beispiele oder vordefinierte Belohnungen. Das System lernt im Wesentlichen durch die wiederholte Frage: Gehört diese Aktion zu einem Pfad, der das Ziel erreicht, oder nicht? Passende Kombinationen werden im Training näher zusammengeführt, während nicht passende auseinandergedrängt werden.
Ein bemerkenswertes Ergebnis der Studie ist das plötzliche Auftreten von Leistungssprüngen, sobald eine kritische Tiefenschwelle überschritten wird. Bei einem simulierten humanoiden Agenten zeigte ein 4-Schichten-Modell lediglich ein unkontrolliertes Hinwerfen zum Ziel. Erst bei 16 Schichten lernte der Agent, aufrecht zu gehen. Bei 256 Schichten entwickelte er akrobatische Strategien und überwand Hindernisse, indem er über Mauern sprang. Diese Verhaltensweisen werden als die ersten dokumentierten ihrer Art in einem zielgerichteten RL-Ansatz für humanoide Umgebungen bezeichnet.
In acht von zehn getesteten Aufgaben übertraf der skalierte CRL-Ansatz alle anderen zielgerichteten RL-Baselines. Bei der schwierigsten Aufgabe war die Verbesserung gegenüber dem Standardnetzwerk um mehr als das Tausendfache größer.
Frühere Forschungsarbeiten konzentrierten sich hauptsächlich auf die Skalierung der Breite von RL-Netzwerken, also der Anzahl der Neuronen pro Schicht. Die aktuelle Studie zeigt jedoch, dass die Tiefe ein effektiverer Hebel ist. Eine Verdopplung der Tiefe auf acht Schichten übertraf selbst die breitesten Netzwerke, während weniger Parameter verwendet wurden. Traditionelle RL-Methoden profitierten in den Experimenten des Teams hingegen nicht von zusätzlicher Tiefe. Die selbstüberwachte Natur von CRL scheint hier der entscheidende Faktor zu sein.
Es ist jedoch zu beachten, dass tiefere Netzwerke längere Trainingszeiten erfordern. Zudem stammen alle bisherigen Ergebnisse aus Simulationen, und die Generalisierbarkeit des Ansatzes auf deutlich unterschiedliche Szenarien ist noch nicht vollständig geklärt. Auch in Offline-Einstellungen, in denen der Agent nicht mehr mit seiner Umgebung interagiert, zeigte zusätzliche Tiefe bisher wenig Nutzen. Der Code ist öffentlich zugänglich.
Bereits 2022 zeigten Forscher der Goethe-Universität Frankfurt, dass Skalierungsgesetze, die von großen Sprachmodellen bekannt sind, auch auf Reinforcement-Learning-Algorithmen wie AlphaZero angewendet werden könnten. Die vorliegende Arbeit liefert weitere Belege dafür, dass Skalierung auch im RL funktioniert, wobei die Netzwerktiefe – und nicht nur die Gesamtgröße – als kritischer Faktor identifiziert wurde.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen