Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die jüngste Veröffentlichung der Forschungsarbeit „Reinforcement Learning with Rubric Anchors“ wirft ein Licht auf einen innovativen Ansatz zur Verbesserung der Leistung und des Stils großer Sprachmodelle (LLMs). Die Arbeit erweitert das Paradigma des „Reinforcement Learning from Verifiable Rewards“ (RLVR) auf offene Aufgaben, indem sie rubrikbasierte Belohnungen integriert. Dies ermöglicht die Bewertung und Optimierung von LLM-Ausgaben, die nicht durch einfache, automatisierte Prüfverfahren überprüfbar sind, wie dies bei Aufgaben in Bereichen wie Mathematik oder Code-Generierung der Fall ist.
RLVR hat sich als leistungsstarkes Werkzeug zur Verbesserung von LLMs erwiesen, wie die Erfolge von OpenAIs o-Serie belegen. Der Kern von RLVR liegt in der Ableitung von Belohnungen aus verifizierbaren Signalen. Diese Signale können beispielsweise das Bestehen von Unit-Tests bei der Codegenerierung oder die Übereinstimmung mit korrekten Antworten bei mathematischen Aufgaben sein. Die Beschränkung von RLVR auf Bereiche mit automatisierbar überprüfbaren Ergebnissen stellt jedoch eine signifikante Einschränkung dar. Die vorliegende Forschungsarbeit umgeht diese Einschränkung durch die Integration von rubrikbasierten Belohnungen.
Rubriken dienen als strukturierte und für das Modell interpretierbare Kriterien zur automatischen Bewertung subjektiver Ausgaben. Die Forscher haben ein umfangreiches System aus über 10.000 Rubriken erstellt, die von Menschen, LLMs oder einer Kombination aus beidem entwickelt wurden. Dies stellt nach Kenntnis der Autoren das bisher größte Rubrik-Belohnungssystem dar. Die Implementierung von rubrikbasiertem Reinforcement Learning ist jedoch mit Herausforderungen verbunden, die in der Arbeit detailliert behandelt werden.
Die Forscher präsentieren ein Open-Source-Modell namens Qwen-30B-A3B, das durch die Integration von rubrikbasierten Belohnungen trainiert wurde. Das Modell zeigt bemerkenswerte Verbesserungen: Mit nur über 5.000 Beispielen erzielt das System eine Verbesserung von +5,2 % bei offenen Benchmarks, insbesondere in den Geisteswissenschaften. Es übertrifft sogar ein 671B DeepSeek-V3-Modell um +2,4 %, wobei gleichzeitig die allgemeinen und logischen Fähigkeiten erhalten bleiben. Ein weiterer wichtiger Aspekt ist die feingranulare stilistische Steuerung, die durch die Verwendung von Rubriken als Anker erreicht wird. Dies ermöglicht es, den oft als „künstlich“ wahrgenommenen Stil von AI-generierten Texten zu mildern und menschlichere, ausdrucksstärkere Antworten zu erzeugen.
Die Arbeit beleuchtet wichtige Aspekte der Rubrikenerstellung, Datenauswahl und des Trainings. Die Autoren teilen ihre Erkenntnisse und diskutieren gleichzeitig die Limitationen ihrer Methode und zukünftige Forschungsrichtungen. Die Entwicklung und Anwendung von Rubriken stellt eine komplexe Aufgabe dar, die sowohl die sorgfältige Definition von Bewertungskriterien als auch die Berücksichtigung potenzieller Verzerrungen erfordert. Die Forschungsarbeit liefert wertvolle Einblicke in diese Herausforderungen und trägt zur Weiterentwicklung des Gebiets des verstärkenden Lernens für LLMs bei.
Die Integration von rubrikbasierten Belohnungen in RLVR stellt einen vielversprechenden Ansatz zur Verbesserung von LLMs dar. Die Ergebnisse der Studie zeigen, dass diese Methode sowohl die Leistung als auch den Stil von LLMs signifikant verbessern kann. Die bereitgestellten Erkenntnisse und das Open-Source-Modell tragen dazu bei, die Entwicklung von noch leistungsfähigeren und nutzerfreundlicheren LLMs voranzutreiben.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen