KI für Ihr Unternehmen – Jetzt Demo buchen

Neuer Ansatz zur Verbesserung der Leistung großer Sprachmodelle durch rubrikbasiertes Reinforcement Learning

Kategorien:
No items found.
Freigegeben:
August 26, 2025

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

1
🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

2
🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

3
⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

4
🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

5
👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Inhaltsverzeichnis

    mindverse studio – Ihre Plattform für digitale Effizienz

    Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.
    Mehr über Mindverse Studio erfahren

    Das Wichtigste in Kürze

    • Eine neue Forschungsarbeit präsentiert RLVR (Reinforcement Learning from Verifiable Rewards) erweitert um rubrikbasierte Belohnungen für offene Aufgaben.
    • Das System nutzt über 10.000 Rubriken, erstellt von Menschen, LLMs oder einer Kombination aus beidem, zur Bewertung subjektiver Ausgaben.
    • Der entwickelte Qwen-30B-A3B-Modell zeigt Verbesserungen bei offenen Benchmarks, insbesondere in den Geisteswissenschaften, und bietet eine feingranulare stilistische Steuerung.
    • Die Studie betont die Herausforderungen der Implementierung von rubrikbasiertem Reinforcement Learning und bietet Einblicke in die Rubrikenerstellung, Datenauswahl und das Training.
    • Die Forschung hebt die Möglichkeiten zur Verbesserung der Qualität und des Stils von LLM-Ausgaben hervor und diskutiert Limitationen und zukünftige Entwicklungen.

    Verstärkendes Lernen mit Rubriken als Anker: Ein neuer Ansatz zur Verbesserung großer Sprachmodelle

    Die jüngste Veröffentlichung der Forschungsarbeit „Reinforcement Learning with Rubric Anchors“ wirft ein Licht auf einen innovativen Ansatz zur Verbesserung der Leistung und des Stils großer Sprachmodelle (LLMs). Die Arbeit erweitert das Paradigma des „Reinforcement Learning from Verifiable Rewards“ (RLVR) auf offene Aufgaben, indem sie rubrikbasierte Belohnungen integriert. Dies ermöglicht die Bewertung und Optimierung von LLM-Ausgaben, die nicht durch einfache, automatisierte Prüfverfahren überprüfbar sind, wie dies bei Aufgaben in Bereichen wie Mathematik oder Code-Generierung der Fall ist.

    RLVR und seine Erweiterung

    RLVR hat sich als leistungsstarkes Werkzeug zur Verbesserung von LLMs erwiesen, wie die Erfolge von OpenAIs o-Serie belegen. Der Kern von RLVR liegt in der Ableitung von Belohnungen aus verifizierbaren Signalen. Diese Signale können beispielsweise das Bestehen von Unit-Tests bei der Codegenerierung oder die Übereinstimmung mit korrekten Antworten bei mathematischen Aufgaben sein. Die Beschränkung von RLVR auf Bereiche mit automatisierbar überprüfbaren Ergebnissen stellt jedoch eine signifikante Einschränkung dar. Die vorliegende Forschungsarbeit umgeht diese Einschränkung durch die Integration von rubrikbasierten Belohnungen.

    Rubrikbasierte Belohnungen: Ein strukturierter Ansatz für die Bewertung subjektiver Ausgaben

    Rubriken dienen als strukturierte und für das Modell interpretierbare Kriterien zur automatischen Bewertung subjektiver Ausgaben. Die Forscher haben ein umfangreiches System aus über 10.000 Rubriken erstellt, die von Menschen, LLMs oder einer Kombination aus beidem entwickelt wurden. Dies stellt nach Kenntnis der Autoren das bisher größte Rubrik-Belohnungssystem dar. Die Implementierung von rubrikbasiertem Reinforcement Learning ist jedoch mit Herausforderungen verbunden, die in der Arbeit detailliert behandelt werden.

    Das Qwen-30B-A3B Modell und seine Ergebnisse

    Die Forscher präsentieren ein Open-Source-Modell namens Qwen-30B-A3B, das durch die Integration von rubrikbasierten Belohnungen trainiert wurde. Das Modell zeigt bemerkenswerte Verbesserungen: Mit nur über 5.000 Beispielen erzielt das System eine Verbesserung von +5,2 % bei offenen Benchmarks, insbesondere in den Geisteswissenschaften. Es übertrifft sogar ein 671B DeepSeek-V3-Modell um +2,4 %, wobei gleichzeitig die allgemeinen und logischen Fähigkeiten erhalten bleiben. Ein weiterer wichtiger Aspekt ist die feingranulare stilistische Steuerung, die durch die Verwendung von Rubriken als Anker erreicht wird. Dies ermöglicht es, den oft als „künstlich“ wahrgenommenen Stil von AI-generierten Texten zu mildern und menschlichere, ausdrucksstärkere Antworten zu erzeugen.

    Herausforderungen und Ausblick

    Die Arbeit beleuchtet wichtige Aspekte der Rubrikenerstellung, Datenauswahl und des Trainings. Die Autoren teilen ihre Erkenntnisse und diskutieren gleichzeitig die Limitationen ihrer Methode und zukünftige Forschungsrichtungen. Die Entwicklung und Anwendung von Rubriken stellt eine komplexe Aufgabe dar, die sowohl die sorgfältige Definition von Bewertungskriterien als auch die Berücksichtigung potenzieller Verzerrungen erfordert. Die Forschungsarbeit liefert wertvolle Einblicke in diese Herausforderungen und trägt zur Weiterentwicklung des Gebiets des verstärkenden Lernens für LLMs bei.

    Fazit

    Die Integration von rubrikbasierten Belohnungen in RLVR stellt einen vielversprechenden Ansatz zur Verbesserung von LLMs dar. Die Ergebnisse der Studie zeigen, dass diese Methode sowohl die Leistung als auch den Stil von LLMs signifikant verbessern kann. Die bereitgestellten Erkenntnisse und das Open-Source-Modell tragen dazu bei, die Entwicklung von noch leistungsfähigeren und nutzerfreundlicheren LLMs voranzutreiben.

    Bibliographie

    * https://arxiv.org/abs/2508.12790 * https://huggingface.co/papers * https://arxiv.org/html/2503.23989v1 * https://x.com/_akhaliq?lang=de * https://www.sciencedirect.com/science/article/pii/S0959475225000921 * https://paperreading.club/page?id=331670 * https://www.researchgate.net/publication/343663513_The_Role_of_Rubrics_in_Learning_and_Implementation_of_Authentic_Assessment_A_Literature_Review * https://huggingface.co/papers/2505.23678 * https://github.com/dair-ai/ML-Papers-of-the-Week * https://www.researchgate.net/publication/371605196_Reinforcement_Learning-Driven_Linker_Design_via_Fast_Attention-based_Point_Cloud_Alignment

    Artikel jetzt als Podcast anhören

    Kunden die uns vertrauen:
    Arise Health logoArise Health logoThe Paak logoThe Paak logoOE logo2020INC logoEphicient logo
    und viele weitere mehr!

    Bereit für den nächsten Schritt?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen