Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Anwendung von Künstlicher Intelligenz, insbesondere im Bereich der Large Language Models (LLMs), hat in den letzten Jahren signifikante Fortschritte gemacht. Ein wesentlicher Treiber dieser Entwicklung ist die Verfeinerung durch Techniken des Reinforcement Learnings (RL). Insbesondere im Kontext von Aufgaben, die präzises logisches Denken und Problemlösung erfordern, wie etwa in mathematischen Domänen oder beim Programmieren, hat sich Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) als äusserst effektiv erwiesen. Es ermöglicht LLMs, ihre Fähigkeiten zur Generierung von qualitativ hochwertigen und korrekten Lösungen zu verbessern.
Trotz der Erfolge birgt der Feintuning-Prozess mittels Reinforcement Learning auch Herausforderungen. Eine zentrale Problematik ist die potenzielle Beeinträchtigung der Explorationsfähigkeit des Modells. Dies kann sich in einer reduzierten Diversität der generierten Outputs manifestieren. Wenn ein Modell zu stark auf die Maximierung einer spezifischen Belohnung trainiert wird, besteht die Gefahr, dass es weniger innovative oder abweichende Lösungen erkundet. Dies wird besonders relevant beim sogenannten Best-of-N-Sampling, einer Methode, bei der mehrere Kandidatenlösungen generiert und die beste davon ausgewählt wird. Bei grossen Werten von N, also einer grossen Anzahl generierter Kandidaten, kann eine eingeschränkte Diversität zu einer Verschlechterung der Gesamtleistung führen, da das Modell möglicherweise nicht in der Lage ist, eine breite Palette potenziell optimaler Lösungen zu erzeugen.
Um dieser Herausforderung zu begegnen, konzentriert sich die aktuelle Forschung auf die Optimierung der max@k-Metrik. Diese Metrik stellt eine kontinuierliche Verallgemeinerung der bekannten pass@k-Metrik dar, die häufig zur Bewertung der Leistung von Modellen bei der Lösung von Aufgaben wie Coding-Problemen verwendet wird. Während pass@k misst, ob mindestens eine von k generierten Lösungen korrekt ist, bietet max@k einen differenzierteren Blick auf die Qualität der besten von k generierten Lösungen. Die Optimierung dieser Metrik zielt darauf ab, die Qualität der besten generierten Stichprobe zu maximieren, während gleichzeitig die Diversität der generierten Lösungen erhalten bleibt oder sogar verbessert wird.
Ein Schlüsselaspekt bei der Optimierung der max@k-Metrik ist die Entwicklung geeigneter Trainingsalgorithmen. Hierbei wurde eine unvoreingenommene On-Policy-Gradienten-Schätzung abgeleitet. Diese Methode ermöglicht eine direkte Optimierung der max@k-Metrik, indem sie die Gradienten der Belohnungsfunktion so schätzt, dass sie die gewünschte Metrik direkt verbessern. On-Policy-Methoden basieren auf Daten, die durch die aktuelle Version der zu optimierenden Policy generiert wurden.
Um die Sample-Effizienz zu verbessern, wurden die Ableitungen auch auf Off-Policy-Updates erweitert. Off-Policy-Algorithmen nutzen Daten, die von einer älteren oder einer anderen Policy generiert wurden, was den Trainingsprozess erheblich beschleunigen kann, da nicht für jeden Update-Schritt neue Daten gesammelt werden müssen. Dies ist ein häufiges Element in modernen RLVR-Algorithmen und trägt dazu bei, den Rechenaufwand zu reduzieren und das Training von LLMs praktikabler zu gestalten. Durch die Kombination von Off-Policy-Updates mit der max@k-Optimierung können Modelle effizienter trainiert werden, um eine hohe Qualität der generierten Lösungen zu erreichen, ohne die Explorationsfähigkeit zu stark einzuschränken.
Empirische Studien haben gezeigt, dass dieser Ansatz die max@k-Metrik in Off-Policy-Szenarien effektiv optimiert. Dies führt zu einer besseren Abstimmung des Modells mit der Best-of-N-Inferenzstrategie. Das bedeutet, dass die Modelle nicht nur in der Lage sind, gute Einzellösungen zu produzieren, sondern auch eine Auswahl von N Lösungen zu generieren, aus der mit hoher Wahrscheinlichkeit eine exzellente Lösung ausgewählt werden kann. Diese Entwicklung ist von grosser Bedeutung für die Leistungsfähigkeit und Zuverlässigkeit von LLMs in kritischen Anwendungen, in denen sowohl die Qualität als auch die Robustheit der generierten Outputs von entscheidender Bedeutung sind.
Die kontinuierliche Forschung in diesem Bereich verspricht weitere Verbesserungen in der Fähigkeit von KI-Modellen, komplexe Probleme zu lösen und dabei eine wünschenswerte Balance zwischen Präzision, Kreativität und Effizienz zu finden. Für B2B-Anwendungen, wie sie beispielsweise von Mindverse unterstützt werden, bedeutet dies die Möglichkeit, noch leistungsfähigere und anpassungsfähigere KI-Assistenten für Content-Erstellung, Datenanalyse und andere geschäftskritische Prozesse einzusetzen.
Bibliography: - Bagirov, F., Arkhipov, M., Sycheva, K., Glukhov, E., & Bogomolov, E. (2022). The Best of N Worlds: Aligning Reinforcement Learning with Best-of-N Sampling via max@k Optimisation. arXiv preprint arXiv:2510.23393. - Hugging Face Papers: The Best of N Worlds: Aligning Reinforcement Learning with Best-of-N Sampling via max@k Optimisation. (2025, October 1). Retrieved from https://huggingface.co/papers/2510.23393 - Huang, A., Block, A., Liu, Q., Jiang, N., Krishnamurthy, A., & Foster, D. (2025). Is Best-of-N the Best of Them? Coverage, Scaling, and Optimality in Inference-Time Alignment. ICML 2025. - Gui, L., Gârbacea, C., & Veitch, V. (2024). BoNBoN Alignment for Large Language Models and the Sweetness of Best-of-n Sampling. NeurIPS 2024. - IJCAI 2024 Accepted Papers: Main Track. (2024, August 3). Retrieved from https://ijcai24.org/main-track-accepted-papers/Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen