Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
In der sich stetig weiterentwickelnden Landschaft der künstlichen Intelligenz stellt die Optimierung von Lernprozessen eine zentrale Herausforderung dar. Insbesondere im Bereich des Reinforcement Learning mit überprüfbaren Belohnungen (RLVR), einem Standardverfahren zur Verbesserung großer Sprachmodelle (LLMs) bei Denkaufgaben, geht ein erheblicher Teil der Rechenleistung bisher ungenutzt verloren. Eine aktuelle Forschungsarbeit von Yunzhen Feng et al. beleuchtet dieses Problem und stellt mit LENS (Likelihood Estimation with Negative Samples) eine innovative Lösung vor, die das Potenzial "negativer Gruppen" erschließt und die Effizienz sowie Leistung von RLVR-Systemen maßgeblich steigert.
Reinforcement Learning ist ein maschinelles Lernparadigma, bei dem ein Agent lernt, optimale Entscheidungen in einer Umgebung zu treffen, um eine maximale Belohnung zu erzielen. Bei komplexen Aufgaben, wie sie beispielsweise im logischen Denken von LLMs auftreten, wird oft die Group Relative Policy Optimization (GRPO) eingesetzt. GRPO bewertet verschiedene generierte Antworten und nutzt diese Bewertungen, um die Policy des Modells zu optimieren. Ein wesentlicher Nachteil von GRPO liegt jedoch in der Handhabung von sogenannten "negativen Gruppen". Dies sind Gruppen von Stichproben, in denen keine der generierten Antworten korrekt ist. In solchen Fällen erzeugt GRPO keinen Vorteil und somit auch keinen Gradienten, was bedeutet, dass die gesamte Rechenleistung für diese Stichproben ungenutzt bleibt. Dies führt zu einer Verschwendung von Ressourcen und potenziell langsameren Lernfortschritten.
Die von Feng und seinem Team entwickelte Methode LENS setzt genau hier an. Die zentrale Frage der Forschung war, wie diese negativen Gruppen ohne zusätzliche Überwachung nutzbar gemacht werden können. Die Antwort liegt in einer Modifikation des Maximum-Likelihood (MLE)-Ziels im Reward Modeling. Die Forscher zeigen, dass der MLE-Gradient äquivalent zu einem Policy-Gradient für eine modifizierte Wertfunktion ist. Diese Wertfunktion führt eine konfidenzgewichtete Strafe für inkorrekte Antworten ein. Das bedeutet, dass Fehler, die mit hoher Konfidenz gemacht werden, stärker bestraft werden. Durch diese Anpassung wird jede Antwort – auch eine falsche – informativ. Selbst wenn keine der generierten Antworten in einer Gruppe korrekt ist, liefert der Grad der "Zuversicht" des Modells in seine falschen Antworten wertvolle Informationen für die Optimierung.
LENS modifiziert GRPO, indem es nicht-null, konfidenzabhängige Belohnungen für inkorrekte Generierungen vergibt. Dies macht negative Gruppen informativ und wandelt zuvor verschwendete Samples in nützliche Gradienten-Updates um. Die Implementierung von LENS basiert auf einer theoretischen Fundierung, die von einem Maximum-Likelihood-Ansatz im Reward Modeling ausgeht. Durch die Einführung einer konfidenzgewichteten Strafe auf falsche Antworten, die umso größer ausfällt, je zuversichtlicher das Modell bei seinem Fehler ist, wird ein differenziertes Feedback ermöglicht. Dies ist ein entscheidender Fortschritt, da es dem Modell erlaubt, aus seinen Fehlern zu lernen, selbst wenn keine direkten Erfolge vorliegen.
Die Wirksamkeit von LENS wurde auf dem MATH-Benchmark, einem Datensatz für mathematische Denkaufgaben, mit verschiedenen großen Sprachmodellen evaluiert. Die Ergebnisse zeigen, dass die vorgeschlagene Variante, LENS, die GRPO-Baseline konsistent übertrifft. Insbesondere bei schwierigeren Aufgabenstellungen konnten signifikante Leistungssteigerungen beobachtet werden. Dies wurde mit Modellen wie Llama-3.1-8B und Qwen-2.5-3B demonstriert, was die breite Anwendbarkeit und Skalierbarkeit der Methode unterstreicht.
Für B2B-Kunden von Mindverse, die auf effiziente und leistungsstarke KI-Systeme angewiesen sind, bedeutet dies einen potenziellen Wettbewerbsvorteil. Die Fähigkeit, aus Fehlern effektiver zu lernen, kann:
Die Erkenntnisse aus dieser Forschung weisen darauf hin, dass die Optimierung von Lernprozessen durch die intelligente Nutzung von Fehlern ein vielversprechender Weg ist, um die Grenzen aktueller KI-Systeme zu erweitern. LENS stellt einen prinzipiellen und praktischen Ansatz dar, um die Effizienz und Leistung im Reinforcement Learning mit überprüfbaren Belohnungen zu steigern und somit die Entwicklung fortschrittlicherer KI-Lösungen voranzutreiben.
Die Forschungsergebnisse von Feng et al. eröffnen neue Perspektiven für die Optimierung von KI-Modellen, insbesondere in rechenintensiven Bereichen. Die Fähigkeit, auch aus negativen Erfahrungen konstruktives Feedback zu ziehen, ist ein Merkmal, das über die reine Fehlerkorrektur hinausgeht und das Potenzial hat, die Art und Weise, wie KI-Systeme lernen und sich anpassen, grundlegend zu verändern. Mindverse verfolgt solche Entwicklungen aufmerksam, um seinen Kunden stets die neuesten und effizientesten KI-Technologien als Partner für Content-Erstellung, -Optimierung und -Recherche zur Verfügung zu stellen.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen