KI für Ihr Unternehmen – Jetzt Demo buchen

Neue Methode zur Effizienzsteigerung im Reinforcement Learning durch Fehlernutzung

Kategorien:
No items found.
Freigegeben:
October 14, 2025

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

1
🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

2
🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

3
⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

4
🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

5
👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Inhaltsverzeichnis

    mindverse studio – Ihre Plattform für digitale Effizienz

    Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.
    Mehr über Mindverse Studio erfahren

    Das Wichtigste in Kürze

    • Eine neue Forschungsarbeit stellt LENS (Likelihood Estimation with Negative Samples) vor, eine Methode, die die Effizienz und Leistung von Reinforcement Learning mit überprüfbaren Belohnungen (RLVR) verbessert.
    • LENS modifiziert die populäre Group Relative Policy Optimization (GRPO), indem es nicht-null, konfidenzabhängige Belohnungen an falsche Antworten zuweist.
    • Dies ermöglicht es, bisher ungenutzte "negative Gruppen" – also Antwortgruppen ohne korrekte Beispiele – in wertvolle Gradienten-Updates umzuwandeln.
    • Empirische Tests auf dem MATH-Benchmark mit Sprachmodellen wie Llama-3.1-8B und Qwen-2.5-3B zeigen, dass LENS die GRPO-Baseline, insbesondere bei schwierigeren Aufgaben, übertrifft.
    • Die Methode bietet einen prinzipiellen und praktischen Weg, die Recheneffizienz in RLVR-Anwendungen zu steigern.

    Fehler nutzen: Wie Konfidenz-Reweighting das Reinforcement Learning revolutioniert

    In der sich stetig weiterentwickelnden Landschaft der künstlichen Intelligenz stellt die Optimierung von Lernprozessen eine zentrale Herausforderung dar. Insbesondere im Bereich des Reinforcement Learning mit überprüfbaren Belohnungen (RLVR), einem Standardverfahren zur Verbesserung großer Sprachmodelle (LLMs) bei Denkaufgaben, geht ein erheblicher Teil der Rechenleistung bisher ungenutzt verloren. Eine aktuelle Forschungsarbeit von Yunzhen Feng et al. beleuchtet dieses Problem und stellt mit LENS (Likelihood Estimation with Negative Samples) eine innovative Lösung vor, die das Potenzial "negativer Gruppen" erschließt und die Effizienz sowie Leistung von RLVR-Systemen maßgeblich steigert.

    Die Herausforderung der "negativen Gruppen" im Reinforcement Learning

    Reinforcement Learning ist ein maschinelles Lernparadigma, bei dem ein Agent lernt, optimale Entscheidungen in einer Umgebung zu treffen, um eine maximale Belohnung zu erzielen. Bei komplexen Aufgaben, wie sie beispielsweise im logischen Denken von LLMs auftreten, wird oft die Group Relative Policy Optimization (GRPO) eingesetzt. GRPO bewertet verschiedene generierte Antworten und nutzt diese Bewertungen, um die Policy des Modells zu optimieren. Ein wesentlicher Nachteil von GRPO liegt jedoch in der Handhabung von sogenannten "negativen Gruppen". Dies sind Gruppen von Stichproben, in denen keine der generierten Antworten korrekt ist. In solchen Fällen erzeugt GRPO keinen Vorteil und somit auch keinen Gradienten, was bedeutet, dass die gesamte Rechenleistung für diese Stichproben ungenutzt bleibt. Dies führt zu einer Verschwendung von Ressourcen und potenziell langsameren Lernfortschritten.

    LENS: Eine neue Perspektive auf Fehlerminimierung

    Die von Feng und seinem Team entwickelte Methode LENS setzt genau hier an. Die zentrale Frage der Forschung war, wie diese negativen Gruppen ohne zusätzliche Überwachung nutzbar gemacht werden können. Die Antwort liegt in einer Modifikation des Maximum-Likelihood (MLE)-Ziels im Reward Modeling. Die Forscher zeigen, dass der MLE-Gradient äquivalent zu einem Policy-Gradient für eine modifizierte Wertfunktion ist. Diese Wertfunktion führt eine konfidenzgewichtete Strafe für inkorrekte Antworten ein. Das bedeutet, dass Fehler, die mit hoher Konfidenz gemacht werden, stärker bestraft werden. Durch diese Anpassung wird jede Antwort – auch eine falsche – informativ. Selbst wenn keine der generierten Antworten in einer Gruppe korrekt ist, liefert der Grad der "Zuversicht" des Modells in seine falschen Antworten wertvolle Informationen für die Optimierung.

    Technische Implementierung und Vorteile

    LENS modifiziert GRPO, indem es nicht-null, konfidenzabhängige Belohnungen für inkorrekte Generierungen vergibt. Dies macht negative Gruppen informativ und wandelt zuvor verschwendete Samples in nützliche Gradienten-Updates um. Die Implementierung von LENS basiert auf einer theoretischen Fundierung, die von einem Maximum-Likelihood-Ansatz im Reward Modeling ausgeht. Durch die Einführung einer konfidenzgewichteten Strafe auf falsche Antworten, die umso größer ausfällt, je zuversichtlicher das Modell bei seinem Fehler ist, wird ein differenziertes Feedback ermöglicht. Dies ist ein entscheidender Fortschritt, da es dem Modell erlaubt, aus seinen Fehlern zu lernen, selbst wenn keine direkten Erfolge vorliegen.

    Empirische Validierung und praktische Relevanz

    Die Wirksamkeit von LENS wurde auf dem MATH-Benchmark, einem Datensatz für mathematische Denkaufgaben, mit verschiedenen großen Sprachmodellen evaluiert. Die Ergebnisse zeigen, dass die vorgeschlagene Variante, LENS, die GRPO-Baseline konsistent übertrifft. Insbesondere bei schwierigeren Aufgabenstellungen konnten signifikante Leistungssteigerungen beobachtet werden. Dies wurde mit Modellen wie Llama-3.1-8B und Qwen-2.5-3B demonstriert, was die breite Anwendbarkeit und Skalierbarkeit der Methode unterstreicht.

    Für B2B-Kunden von Mindverse, die auf effiziente und leistungsstarke KI-Systeme angewiesen sind, bedeutet dies einen potenziellen Wettbewerbsvorteil. Die Fähigkeit, aus Fehlern effektiver zu lernen, kann:

    • die Trainingszeiten von LLMs und anderen RLVR-Modellen verkürzen.
    • die Genauigkeit und Robustheit von KI-Anwendungen verbessern.
    • die Entwicklung komplexer KI-Systeme beschleunigen, indem weniger manuelle Interventionen zur Fehlerkorrektur erforderlich sind.

    Die Erkenntnisse aus dieser Forschung weisen darauf hin, dass die Optimierung von Lernprozessen durch die intelligente Nutzung von Fehlern ein vielversprechender Weg ist, um die Grenzen aktueller KI-Systeme zu erweitern. LENS stellt einen prinzipiellen und praktischen Ansatz dar, um die Effizienz und Leistung im Reinforcement Learning mit überprüfbaren Belohnungen zu steigern und somit die Entwicklung fortschrittlicherer KI-Lösungen voranzutreiben.

    Ausblick

    Die Forschungsergebnisse von Feng et al. eröffnen neue Perspektiven für die Optimierung von KI-Modellen, insbesondere in rechenintensiven Bereichen. Die Fähigkeit, auch aus negativen Erfahrungen konstruktives Feedback zu ziehen, ist ein Merkmal, das über die reine Fehlerkorrektur hinausgeht und das Potenzial hat, die Art und Weise, wie KI-Systeme lernen und sich anpassen, grundlegend zu verändern. Mindverse verfolgt solche Entwicklungen aufmerksam, um seinen Kunden stets die neuesten und effizientesten KI-Technologien als Partner für Content-Erstellung, -Optimierung und -Recherche zur Verfügung zu stellen.

    Bibliography

    - Feng, Y., Jain, P., Hartshorn, A., Duan, Y., & Kempe, J. (2025). Leveraging Negative RL-Groups via Confidence Reweighting. *arXiv preprint arXiv:2510.08696*. https://arxiv.org/abs/2510.08696 - Hugging Face. (n.d.). *Leveraging Negative RL-Groups via Confidence Reweighting*. Retrieved from https://huggingface.co/papers/2510.08696 - Hugging Face. (n.d.). *Daily Papers*. Retrieved from https://huggingface.co/papers/date/2025-10-13 - Paper Digest. (n.d.). *AAAI 2025 Papers & Highlights*. Retrieved from https://www.paperdigest.org/2025/02/aaai-2025-papers-highlights/ - ICML. (n.d.). *ICML 2025 Papers*. Retrieved from https://icml.cc/virtual/2025/papers.html - Gonzalez, J. E. (n.d.). *Publications - People @EECS*. Retrieved from http://people.eecs.berkeley.edu/~jegonzal/publications.html - Big Red AI. (n.d.). *AI Papers by Cornell Researchers*. Retrieved from https://bigredai.org/papers

    Artikel jetzt als Podcast anhören

    Kunden die uns vertrauen:
    Arise Health logoArise Health logoThe Paak logoThe Paak logoOE logo2020INC logoEphicient logo
    und viele weitere mehr!

    Bereit für den nächsten Schritt?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen