Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Als Senior Specialist Journalist und Analyst für Mindverse beleuchten wir heute eine aktuelle Entwicklung im Bereich der Künstlichen Intelligenz, die das Potenzial hat, die Leistungsfähigkeit multimodaler agentenbasierter Systeme maßgeblich zu beeinflussen: die „Agent Explorative Policy Optimization“ (AXPO). Diese Methode, die in einem kürzlich veröffentlichten Paper vorgestellt wurde, adressiert eine zentrale Herausforderung bei der Entwicklung von KI-Agenten, die sowohl interne Denkprozesse als auch externe Werkzeugnutzung beherrschen müssen.
Moderne Vision-Language-Modelle (VLM) demonstrieren beeindruckende Fähigkeiten in komplexen Problemlösungsszenarien, insbesondere wenn sie über erweiterte Denkfähigkeiten verfügen. Dennoch stoßen diese Modelle an Grenzen, sobald reale Probleme die Interaktion mit externen Werkzeugen erfordern. Agentenbasierte Systeme, die in der Lage sind, sowohl zu „denken“ (interne Schlussfolgerungen zu ziehen) als auch zu „handeln“ (externe Werkzeuge zu nutzen), sind hier gefragt. Diese Interaktion ist jedoch von einer strukturellen Asymmetrie geprägt, die als „Thinking-Acting Gap“ bezeichnet wird.
Das „Denken“ innerhalb eines Agenten ist primär ein in sich geschlossener Prozess, der auf den internen Repräsentationen des Modells basiert. Im Gegensatz dazu ist die „Werkzeugnutzung“ eine hochvariable externe Aktion. Diese Diskrepanz führt dazu, dass bei herkömmlichen Reinforcement Learning (RL)-Methoden, wie beispielsweise GRPO (Generalized Policy Optimization), das Potenzial der Werkzeugnutzung oft nicht voll ausgeschöpft wird. Beobachtungen zeigen, dass Werkzeugeinsätze nur in einem geringen Prozentsatz der „Rollouts“ (Durchläufe eines Szenarios) versucht werden. Zudem sind die Werkzeug-nutzenden Rollouts, wenn sie denn stattfinden, in einem signifikanten Anteil der Fälle fehlerhaft, was das Lernsignal auf der Ebene der Werkzeugaufrufe stark beeinträchtigt.
Die „Agent Explorative Policy Optimization“ (AXPO) wurde entwickelt, um genau diese „Thinking-Acting Gap“ zu schließen. Der Kernansatz von AXPO besteht darin, das Trainingssignal und die Modellleistung durch ein gezieltes Resampling von Werkzeugaufrufen in fehlgeschlagenen Rollouts zu verbessern.
AXPO identifiziert jene Untergruppen von Rollouts, bei denen der Werkzeugeinsatz fehlerhaft war. Für diese fehlerhaften Sequenzen wird der „Thinking Prefix“ (der Teil des Denkprozesses, der dem Werkzeugaufruf vorausgeht) beibehalten, während der Werkzeugaufruf selbst und seine Fortsetzung neu gesampelt werden. Dieser Prozess wird durch eine unsicherheitsbasierte Präfixauswahl ergänzt, die es dem System ermöglicht, gezielter in Bereichen zu explorieren, in denen ein hohes Verbesserungspotenzial besteht. Durch dieses iterative Resampling lernt das Modell, effektivere Werkzeugaufrufe zu generieren und die negativen Auswirkungen fehlerhafter Aktionen zu minimieren.
Die Wirksamkeit von AXPO wurde auf neun multimodalen Benchmarks evaluiert. Die Ergebnisse zeigen eine signifikante Leistungssteigerung im Vergleich zu etablierten Methoden:
- SFT (Supervised Fine-Tuning) in Kombination mit AXPO übertrifft SFT mit GRPO im Durchschnitt um 1,8 Prozentpunkte bei Pass@1 und Pass@4 auf 8B-Modellen. - Ein 8B-Modell, das mit SFT und AXPO trainiert wurde, konnte die Leistung eines 32B-Basismodells bei Pass@4 übertreffen, und das mit viermal weniger Parametern.Diese Ergebnisse deuten darauf hin, dass AXPO nicht nur die Robustheit und Genauigkeit multimodaler Agenten verbessert, sondern auch eine höhere Effizienz in Bezug auf die Modellgröße ermöglicht. Die Fähigkeit, mit weniger Parametern eine vergleichbare oder sogar bessere Leistung zu erzielen, ist von großer Bedeutung für praktische Anwendungen, da sie den Rechenaufwand und die Implementierungskosten reduziert. Dies ist ein entscheidender Faktor für den B2B-Bereich, wo Effizienz und Skalierbarkeit von KI-Lösungen von zentraler Bedeutung sind.
Die Einführung von AXPO stellt einen Fortschritt in der Entwicklung multimodaler agentenbasierter KI-Systeme dar. Die Fähigkeit, die Interaktion zwischen internem Denken und externer Werkzeugnutzung effektiver zu gestalten, eröffnet neue Möglichkeiten für Anwendungen in komplexen Umgebungen. Dazu gehören Bereiche wie:
Die kontinuierliche Forschung in Methoden wie AXPO trägt dazu bei, die „Agentic Reasoning“-Fähigkeiten von KI-Systemen zu erweitern und sie robuster und anpassungsfähiger für die Anforderungen der realen Welt zu machen.
Die „Agent Explorative Policy Optimization“ (AXPO) stellt einen vielversprechenden Ansatz dar, um die Leistungsfähigkeit multimodaler agentenbasierter KI-Systeme zu steigern. Durch das gezielte Adressieren der „Thinking-Acting Gap“ und die Optimierung des Lernsignals bei der Werkzeugnutzung, ermöglicht AXPO eine effizientere und präzisere Ausführung komplexer Aufgaben. Für Unternehmen, die auf fortgeschrittene KI-Lösungen setzen, bedeutet dies das Potenzial für leistungsfähigere und ressourcenschonendere Agenten, die in der Lage sind, eine breite Palette von Herausforderungen zu bewältigen.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen