Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Ausrichtung großer Sprachmodelle (LLMs) an menschlichen Präferenzen ist ein zentrales Element im Bereich des Reinforcement Learnings aus menschlichem Feedback (RLHF). Bisherige Belohnungsmodelle basieren oft auf einfachen Skalar- oder Paarvergleichen, die die Vielschichtigkeit menschlicher Präferenzen nur unzureichend erfassen. Eine aktuelle Forschungsarbeit führt mit "OpenRubrics" einen innovativen Ansatz ein, der die Generierung skalierbarer, synthetischer Bewertungsraster (Rubriken) ermöglicht, um diese Lücke zu schließen und die Qualität der LLM-Ausrichtung signifikant zu verbessern.
Die Effektivität von LLMs hängt maßgeblich davon ab, wie gut sie menschliche Anweisungen und Präferenzen verstehen und umsetzen können. Aktuelle Ansätze zur Belohnungsmodellierung, die darauf abzielen, LLMs auf dieses Ziel hin zu trainieren, stoßen an Grenzen. Einfache numerische Bewertungen oder die Präferenz zwischen zwei Antworten erfassen selten die komplexen Nuancen, die eine Antwort "gut" oder "schlecht" machen. Hier setzen Rubriken an: Sie bieten eine strukturierte, sprachbasierte Kriteriensammlung, die es ermöglicht, verschiedene Qualitätsdimensionen einer Antwort zu bewerten. Die Erstellung solcher Rubriken war jedoch bisher zeitaufwendig, teuer und schwer zu skalieren, da sie oft menschliche Experten erfordert.
Das Forschungsteam hinter OpenRubrics hat eine umfangreiche Sammlung von (Prompt, Rubrik)-Paaren entwickelt, die als Trainingsdaten für die Generierung von Rubriken und für rubrikenbasierte Belohnungsmodelle dienen. Dieses Dataset, das aus einer Vielzahl öffentlich verfügbarer Präferenz- und Instruktions-Tuning-Datasets zusammengestellt wurde, deckt unterschiedliche Domänen und Aufgaben ab, von allgemeinen Konversationsdaten bis hin zu spezialisierten wissenschaftlichen und medizinischen Ressourcen.
Ein Schlüsselelement von OpenRubrics ist die Contrastive Rubric Generation (CRG). Diese Methode zielt darauf ab, umfassende und diskriminierende Bewertungskriterien zu erzeugen, indem sie bevorzugte und abgelehnte Antworten gegenüberstellt. Dabei werden zwei Arten von Rubriken unterschieden:
Durch den Vergleich von "gewählten" und "abgelehnten" Antworten lernt das Modell, jene Kriterien zu identifizieren, die eine qualitativ hochwertige Antwort von einer weniger guten unterscheiden. Um die Zuverlässigkeit der generierten Rubriken weiter zu erhöhen, wird ein Konsistenzfilter eingesetzt. Hierbei wird das LLM erneut aufgefordert, auf Basis der generierten Rubrik eine Präferenzvorhersage zu treffen. Nur Rubriken, die mit der ursprünglichen menschlichen Präferenz übereinstimmen, werden beibehalten. Dieser Schritt eliminiert fehlerhafte oder inkonsistente Rubriken und sorgt für eine höhere Qualität der Trainingsdaten.
Aufbauend auf den synthetisierten Rubriken wurde das Belohnungsmodell Rubric-RM entwickelt. Dieses Modell nutzt die strukturierten Rubriken, um präzisere und interpretierbarere Präferenzurteile zu liefern. Die Experimente zeigen, dass Rubric-RM bestehende Belohnungsmodelle, die auf ähnlichen Modellgrößen basieren, signifikant übertrifft. Über verschiedene Benchmarks hinweg erzielte Rubric-RM eine durchschnittliche Leistungssteigerung von 6,8 %.
Die Vorteile von Rubric-RM beschränken sich nicht nur auf die reine Belohnungsmodellierung. Wenn es als Belohnungsmodell in der Policy-Optimierung (z.B. mittels Direct Preference Optimization, DPO) eingesetzt wird, verbessert es die Leistung von Policy-Modellen bei der Einhaltung von Anweisungen und in biomedizinischen Benchmarks um durchschnittlich 1,1 % bis 6,5 %. Dies ist besonders relevant für komplexe Aufgaben, bei denen herkömmliche Belohnungsmodelle oft Schwierigkeiten haben, feingranulare Anweisungen oder subtile Qualitätsmerkmale zu erfassen.
Fallstudien verdeutlichen die Überlegenheit von Rubric-RM. Beispielsweise bei Aufgaben, die eine spezifische Formatierung oder Längenbegrenzung vorschreiben, neigen herkömmliche Modelle dazu, längere, elaboriertere Antworten zu bevorzugen, selbst wenn diese die expliziten Regeln verletzen. Rubric-RM hingegen wendet zunächst die "Hard Rules" an, wie die Paragraphenzahl, und bewertet erst danach die "Principles" wie Bildhaftigkeit oder Originalität. Dies führt zu korrekteren Entscheidungen und reduziert Fehler, die durch eine "verbosity bias" (Tendenz zu ausführlicheren Antworten) entstehen.
Ein weiterer wichtiger Aspekt ist die Effizienz. Obwohl Rubric-RM in zwei Schritten arbeitet – der Generierung der Rubrik und der anschließenden Bewertung – ist es nicht langsamer als bestehende reasoning-basierte Belohnungsmodelle. Dies liegt daran, dass die Bewertungsaufgabe in zwei fokussierte, kürzere Schritte zerlegt wird. Zudem können die generierten Rubriken offline berechnet und für die Wiederverwendung zwischengespeichert werden, was die Kosten bei groß angelegten Bewertungs- und Optimierungsprozessen weiter senkt.
OpenRubrics etabliert einen neuen, prinzipiengeleiteten Ansatz für die LLM-Ausrichtung, der die Lücke zwischen kostspieligen menschlichen Bewertungen und automatisierter Belohnungsmodellierung schließt. Die Interpretierbarkeit der Rubriken bietet nicht nur eine verbesserte Kontrolle über die Modellqualität, sondern auch tiefere Einblicke in die Entscheidungsprozesse der LLMs. Zukünftige Forschungsarbeiten könnten die Rubrikengenerierung auf noch offenere Aufgaben ausweiten und Rubriken als Zwischenüberwachung in RLHF-Pipelines nutzen.
Für Unternehmen, die LLMs in B2B-Anwendungen einsetzen, bedeutet OpenRubrics eine vielversprechende Entwicklung. Die Möglichkeit, präzisere und skalierbare Bewertungsmechanismen zu implementieren, kann die Zuverlässigkeit und Anpassungsfähigkeit von KI-Systemen erheblich steigern und somit einen klaren Wettbewerbsvorteil schaffen.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen