KI für Ihr Unternehmen – Jetzt Demo buchen

Erweiterung der KI-Fähigkeiten durch Off-Policy-Lernen: Ein neuer Ansatz zur Verbesserung des Schlussfolgerungsvermögens

Kategorien:
No items found.
Freigegeben:
April 24, 2025

Artikel jetzt als Podcast anhören

Den Horizont des KI-Denkens erweitern: Off-Policy-Lernen für verbesserte Schlussfolgerungsfähigkeiten

Künstliche Intelligenz (KI) hat in den letzten Jahren rasante Fortschritte gemacht, insbesondere im Bereich des maschinellen Lernens. Ein vielversprechender Ansatz ist das Reinforcement Learning (RL), bei dem KI-Modelle durch Interaktion mit einer Umgebung lernen, optimale Aktionen auszuführen. Große Sprachmodelle (LLMs) haben gezeigt, dass sie komplexe Aufgaben wie mehrstufige Schlussfolgerungen und Selbstreflexion durch RL mit einfachen regelbasierten Belohnungen erlernen können. Bisherige Ansätze, sogenannte "Zero-Shot-RL"-Methoden, stoßen jedoch an ihre Grenzen, da sie auf die eigenen Ausgaben des Modells beschränkt sind und somit das Lernen über die anfänglichen Fähigkeiten hinaus einschränken.

Ein neuer Forschungsansatz namens LUFFY (Learning to reason Under oFF-policY guidance) verspricht, diese Hürde zu überwinden. LUFFY erweitert das Zero-Shot-RL um sogenannte "Off-Policy Reasoning Traces". Diese Traces ermöglichen es dem Modell, aus den Erfahrungen anderer Agenten oder aus vorab aufgezeichneten Daten zu lernen, anstatt nur aus seinen eigenen Aktionen. Durch die Kombination von Off-Policy-Demonstrationen mit On-Policy-Rollouts während des Trainings findet LUFFY ein dynamisches Gleichgewicht zwischen Imitation und Exploration.

Ein zentrales Element von LUFFY ist die "Policy Shaping" mittels regularisiertem Importance Sampling. Diese Technik verhindert oberflächliche und starre Imitation während des Mixed-Policy-Trainings und fördert das Lernen von wichtigen, aber möglicherweise weniger häufigen Aktionen. Die Ergebnisse sind beeindruckend: LUFFY erzielt einen durchschnittlichen Gewinn von über 7,0 Punkten in sechs mathematischen Benchmarks und einen Vorteil von über 6,2 Punkten in Out-of-Distribution-Aufgaben. Im Vergleich zum überwachten Fine-Tuning (SFT) auf Basis von Imitation schneidet LUFFY deutlich besser ab, insbesondere in Bezug auf die Generalisierung.

Die Analyse zeigt, dass LUFFY nicht nur effektiv imitiert, sondern auch über die vorgegebenen Demonstrationen hinaus exploriert. Dies eröffnet einen skalierbaren Weg, um generalisierbare Schlussfolgerungsmodelle mit Off-Policy-Anleitungen zu trainieren. Die Fähigkeit, aus externen Daten zu lernen und gleichzeitig eigene Strategien zu entwickeln, ist ein entscheidender Schritt hin zu robusteren und anpassungsfähigeren KI-Systemen. LUFFY demonstriert das Potenzial von Off-Policy-Lernen, die Grenzen des KI-Denkens zu erweitern und komplexere Schlussfolgerungsfähigkeiten zu ermöglichen.

Die Implikationen dieser Forschung sind weitreichend. Von der Verbesserung mathematischer Fähigkeiten bis hin zur Lösung komplexer Probleme in verschiedenen Bereichen könnte LUFFY den Weg für eine neue Generation von KI-Modellen ebnen, die in der Lage sind, selbstständig zu lernen und sich an neue Situationen anzupassen.

Für Unternehmen wie Mindverse, die sich auf die Entwicklung von KI-Lösungen spezialisiert haben, eröffnen sich durch diese Fortschritte neue Möglichkeiten. Die Integration von Off-Policy-Lernmethoden in maßgeschneiderte Lösungen wie Chatbots, Voicebots, KI-Suchmaschinen und Wissenssysteme könnte deren Leistungsfähigkeit und Flexibilität erheblich steigern.

Bibliographie: Yan, J., Li, Y., Hu, Z., Wang, Z., Cui, G., Qu, X., Cheng, Y., & Zhang, Y. (2025). Learning to Reason under Off-Policy Guidance. *arXiv preprint arXiv:2504.14945*. Sutton, R. S., & Barto, A. G. (2018). Reinforcement learning: An introduction. MIT press. Schulman, J., Levine, S., Abbeel, P., Jordan, M., & Moritz, P. (2015). Trust region policy optimization. In *International conference on machine learning* (pp. 1889-1897). PMLR. Pacchiano, A., Ball, P., Parker-Holder, J., Choromanski, K., & Roberts, S. (2020). On the almost sure convergence of stochastic gradient descent in non-convex problems. *arXiv preprint arXiv:2006.11807*. Hausknecht, M., & Stone, P. (2016). Deep reinforcement learning in parameterized action space. *arXiv preprint arXiv:1511.04143*.
Was bedeutet das?
Mindverse vs ChatGPT Plus Widget

Warum Mindverse Studio?

Entdecken Sie die Vorteile gegenüber ChatGPT Plus

Sie nutzen bereits ChatGPT Plus? Das ist ein guter Anfang! Aber stellen Sie sich vor, Sie hätten Zugang zu allen führenden KI-Modellen weltweit, könnten mit Ihren eigenen Dokumenten arbeiten und nahtlos im Team kollaborieren.

🚀 Mindverse Studio

Die professionelle KI-Plattform für Unternehmen – leistungsstärker, flexibler und sicherer als ChatGPT Plus. Mit über 50 Modellen, DSGVO-konformer Infrastruktur und tiefgreifender Integration in Unternehmensprozesse.

ChatGPT Plus

❌ Kein strukturierter Dokumentenvergleich

❌ Keine Bearbeitung im Dokumentkontext

❌ Keine Integration von Unternehmenswissen

VS

Mindverse Studio

✅ Gezielter Dokumentenvergleich mit Custom-Prompts

✅ Kontextbewusste Textbearbeitung im Editor

✅ Wissensbasierte Analyse & Zusammenfassungen

📚 Nutzen Sie Ihr internes Wissen – intelligent und sicher

Erstellen Sie leistungsstarke Wissensdatenbanken aus Ihren Unternehmensdokumenten.Mindverse Studio verknüpft diese direkt mit der KI – für präzise, kontextbezogene Antworten auf Basis Ihres spezifischen Know-hows.DSGVO-konform, transparent und jederzeit nachvollziehbar.

ChatGPT Plus

❌ Nur ein Modellanbieter (OpenAI)

❌ Keine Modellauswahl pro Use Case

❌ Keine zentrale Modellsteuerung für Teams

VS

Mindverse Studio

✅ Zugriff auf über 50 verschiedene KI-Modelle

✅ Modellauswahl pro Prompt oder Assistent

✅ Zentrale Steuerung auf Organisationsebene

🧠 Zugang zu allen führenden KI-Modellen – flexibel & anpassbar

OpenAI GPT-4: für kreative Texte und allgemeine Anwendungen
Anthropic Claude: stark in Analyse, Struktur und komplexem Reasoning
Google Gemini: ideal für multimodale Aufgaben (Text, Bild, Code)
Eigene Engines: individuell trainiert auf Ihre Daten und Prozesse

ChatGPT Plus

❌ Keine echte Teamkollaboration

❌ Keine Rechte- oder Rollenverteilung

❌ Keine zentrale Steuerung oder Nachvollziehbarkeit

VS

Mindverse Studio

✅ Teamübergreifende Bearbeitung in Echtzeit

✅ Granulare Rechte- und Freigabeverwaltung

✅ Zentrale Steuerung & Transparenz auf Organisationsebene

👥 Kollaborative KI für Ihr gesamtes Unternehmen

Nutzen Sie Mindverse Studio als zentrale Plattform für abteilungsübergreifende Zusammenarbeit.Teilen Sie Wissen, erstellen Sie gemeinsame Workflows und integrieren Sie KI nahtlos in Ihre täglichen Prozesse – sicher, skalierbar und effizient.Mit granularen Rechten, transparenter Nachvollziehbarkeit und Echtzeit-Kollaboration.

Bereit für den nächsten Schritt?

Sehen Sie Mindverse Studio in Aktion. Buchen Sie eine persönliche 30-minütige Demo.

🎯 Kostenlose Demo buchen

Wie können wir Ihnen heute helfen?

Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
Herzlichen Dank! Deine Nachricht ist eingegangen!
Oops! Du hast wohl was vergessen, versuche es nochmal.

🚀 Neugierig auf Mindverse Studio?

Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

🚀 Demo jetzt buchen