Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Das Qwen-Team von Alibaba hat einen neuartigen Trainingsalgorithmus entwickelt, der darauf abzielt, die Argumentationsfähigkeiten von KI-Modellen signifikant zu verbessern. Dieser Algorithmus, bekannt als Future-KL Influenced Policy Optimization (FIPO), unterscheidet sich von herkömmlichen Reinforcement-Learning-Methoden, indem er die Bedeutung einzelner Tokens innerhalb einer Argumentationskette differenziert bewertet. Das Ziel ist es, KI-Modelle zu befähigen, tiefer und selbstkritischer zu denken.
Herkömmliche Reinforcement-Learning-Ansätze für große Sprachmodelle (LLMs) vergeben in der Regel eine einheitliche Belohnung oder Bestrafung für die gesamte generierte Antwort. Dies bedeutet, dass jeder Token in der Sequenz, unabhängig von seiner logischen Relevanz, die gleiche Gewichtung erhält. Ob ein Token einen entscheidenden logischen Wendepunkt markiert oder lediglich ein Satzzeichen ist, beeinflusst die Belohnung gleichermaßen. Das Qwen-Team identifizierte diese undifferenzierte Belohnungszuweisung als eine wesentliche Ursache dafür, dass Argumentationsmodelle mit gängigen Trainingsmethoden wie GRPO (Group Relative Policy Optimization) an ihre Grenzen stoßen. Die Länge der Argumentationsketten stagniert dabei oft ab einem bestimmten Punkt.
Mit FIPO möchte das Qwen-Team diesen Engpass überwinden. Anstatt jeden Token isoliert zu bewerten, blickt der Algorithmus vorausschauend: Er analysiert, wie sich das Verhalten des Modells nach der Generierung eines bestimmten Tokens verändert. FIPO berechnet die kumulative Wahrscheinlichkeitsverschiebung über alle nachfolgenden Tokens hinweg und nutzt dieses Signal, um Belohnungen präziser zu verteilen. Tokens, die eine produktive Argumentationskette einleiten, erhalten eine größere Belohnung, während Tokens, die das Modell in eine Sackgasse führen, weniger belohnt werden. Dieser Ansatz ermöglicht es dem Modell, die Auswirkungen jedes seiner Schritte auf den gesamten Denkprozess besser zu verstehen und zu optimieren.
Bisherige Versuche, das Problem der undifferenzierten Belohnung zu lösen, basierten häufig auf PPO-Methoden (Proximal Policy Optimization), die ein separates Wertmodell zur Schätzung eines Nutzenwerts für jeden Token verwenden. Diese Hilfsmodelle erfordern oft ein Vortraining mit umfangreichen Chain-of-Thought-Daten, was externen Wissenseintrag mit sich bringen kann. Die Forscher weisen darauf hin, dass es dadurch schwierig ist, festzustellen, ob Leistungsverbesserungen auf den Algorithmus selbst oder auf das vorab trainierte Hilfsmodell zurückzuführen sind. FIPO verzichtet vollständig auf ein solches Hilfsmodell und erzielt dennoch vergleichbare Ergebnisse. Dies trägt zur Transparenz und direkten Zurechenbarkeit der Leistungssteigerungen bei.
Um die Trainingsstabilität zu gewährleisten, integriert FIPO mehrere Schutzmechanismen. Ein Diskontierungsfaktor sorgt dafür, dass nahegelegene Tokens stärker gewichtet werden als weiter entfernte, da deren nachfolgender Einfluss ohnehin schwieriger vorherzusagen ist. Der Algorithmus filtert zudem Tokens heraus, bei denen das Modell zwischen den Trainingsschritten zu stark abgewichen ist. Ohne diesen Filter kam es zu erheblichen Instabilitäten im Training und einem starken Rückgang der Antwortlängen.
Das Team testete FIPO an Qwen2.5-32B-Base, einem Modell, das zuvor keinerlei Kontakt zu synthetischen Long-CoT-Daten hatte. Es wurde ausschließlich mit dem öffentlichen Datensatz von DAPO (Decoupled Clip and Dynamic sAmpling Policy Optimization) trainiert, einer gängigen Open-Source-GRPO-Trainingsvariante, um einen fairen Vergleich zu gewährleisten.
Die Ergebnisse zeigten klare Verbesserungen: Während die durchschnittliche Chain-of-Thought-Länge von DAPO bei etwa 4.000 Tokens stagnierte, erreichte FIPO über 10.000 Tokens. Bei der AIME 2024 Mathematik-Benchmark stieg die Genauigkeit von 50 auf 56 Prozent, mit einem Spitzenwert von 58 Prozent. Damit übertraf FIPO sowohl Deepseek-R1-Zero-Math-32B (etwa 47 Prozent) als auch OpenAI's o1-mini (rund 56 Prozent). Bei der anspruchsvolleren AIME 2025 stiegen die Werte von 38 auf 43 Prozent.
Die Forscher betonten, dass es sich nicht nur um einige Ausreißer handelte, die längere Antworten lieferten, sondern dass sich die gesamte Verteilung der Antwortlängen nach oben verschob. Dies deutet auf eine grundlegende Änderung in der Problemlösungsstrategie des Modells hin.
Das Paper beschreibt vier Phasen, die das Modell während des Trainings durchläuft. In der Anfangsphase generiert es oberflächliche Planungsentwürfe – im Wesentlichen Gliederungen ohne tatsächliche Berechnungen, die in einer halluzinierten Antwort enden. In der zweiten Phase, in der DAPO-trainierte Modelle den Rest des Trainings verbleiben, führt das Modell eine saubere, lineare Argumentationskette aus und stoppt bei der ersten gefundenen Antwort.
In Phase drei beginnt das Modell spontan, seine eigenen Zwischenergebnisse zu überprüfen. Es erreicht eine Antwort, wechselt dann aber zu einem anderen Ansatz, beispielsweise von algebraischer Manipulation zu geometrischer Interpretation, um die Ergebnisse zu verifizieren. Bis Phase vier führt das Modell eine systematische Mehrfachverifizierung durch, indem es große quadratische Zahlen Schritt für Schritt neu berechnet und die vollständige Ableitung mehrmals durcharbeitet.
Das Paper stellt fest, dass dieses Verhalten den Inferenzzeit-Skalierungsstrategien in OpenAIs o-Serie und Deepseek-R1 sehr ähnelt, FIPO dies jedoch allein durch Reinforcement Learning erreicht, ohne synthetische Long-CoT-Daten zu verwenden.
Die aktuellen Tests von FIPO konzentrierten sich auf mathematische Probleme und wurden mit einem einzigen Datensatz sowie auf Basismodellen ohne Long-CoT-Vortraining durchgeführt. Die längeren Sequenzen erhöhen zudem die Rechenkosten. Das Team weist darauf hin, dass weitere umfassende Tests erforderlich sind, um die Übertragbarkeit dieser Fortschritte auf andere Bereiche wie Code oder symbolische Logik zu prüfen. Es besteht ebenfalls noch eine Leistungslücke im Vergleich zur Destillation von größeren Lehrmodellen, da reines Reinforcement Learning einem Modell weniger beibringt als die direkte Anweisung durch ein stärkeres Modell.
Das Qwen-Team plant, das Trainingssystem zusammen mit allen Konfigurationen als Open Source zu veröffentlichen, um die weitere Forschung und Entwicklung in diesem Bereich zu fördern.
Alibabas Qwen-Modellreihe, die auch in anderen Bereichen wie Coding und maschineller Übersetzung kontinuierlich weiterentwickelt wird, positioniert sich als wichtiger Akteur im globalen KI-Wettbewerb. Mit der Einführung von Modellen wie Qwen3-Coder für fortschrittliches agentisches Codieren und Qwen-MT für maschinelle Übersetzung in 92 Sprachen unterstreicht Alibaba sein Engagement für Open-Source-Innovationen. Die kontinuierliche Forschung und Entwicklung, wie sie in FIPO zum Ausdruck kommt, zeigt den Bestreben, die Grenzen dessen zu erweitern, was KI-Modelle in Bezug auf komplexes Denken und Problemlösung leisten können. Die Integration von KI in Alibabas gesamte Ökosystem, von E-Commerce bis hin zu Unternehmenslösungen, verdeutlicht die strategische Bedeutung dieser Entwicklungen.
Die Fähigkeit, nativ multimodale Daten zu verarbeiten und lange Kontextfenster effizient zu nutzen, wie in Qwen 3.5 gezeigt, ist ein weiterer Beleg für die technologische Tiefe, die Alibabas Qwen-Team in die Entwicklung seiner KI-Modelle einbringt. Durch die Kombination von Gated Delta Networks, Mixture-of-Experts-Architektur und frühem multimodalen Fusion setzt Alibaba neue Maßstäbe für effiziente und leistungsstarke Sprachmodelle, die auch auf kleineren Geräten und mit geringerem Rechenaufwand betrieben werden können.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen