Neuer Algorithmus FIPO von Alibabas Qwen-Team verbessert KI-Argumentationstechniken

Kategorien:

No items found.

Freigegeben:

April 5, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Das Qwen-Team von Alibaba hat einen neuen Algorithmus namens FIPO (Future-KL Influenced Policy Optimization) entwickelt, der die Denkprozesse von KI-Modellen vertieft.
FIPO weist einzelnen Tokens unterschiedliche Gewichte zu, basierend auf ihrem Einfluss auf die nachfolgende Argumentationskette, anstatt alle Tokens gleich zu behandeln.
Dieser Ansatz führte zu deutlich längeren Denkketten und einer verbesserten Fähigkeit der Modelle, Zwischenergebnisse selbstständig zu überprüfen.
Die Validierung des Algorithmus erfolgte bisher primär anhand mathematischer Aufgaben.
FIPO übertrifft etablierte Methoden wie DAPO in Bezug auf die Länge der Denkketten und die Genauigkeit bei mathematischen Benchmarks.
Die Integration von FIPO führt dazu, dass Modelle Phasen der Selbstüberprüfung durchlaufen, ähnlich fortgeschrittenen Inferenzstrategien.
Alibaba plant, das Trainingssystem als Open Source zu veröffentlichen.

Alibabas Qwen-Team vertieft KI-Denkprozesse mit innovativem Algorithmus

Das Qwen-Team von Alibaba hat einen neuartigen Trainingsalgorithmus entwickelt, der darauf abzielt, die Argumentationsfähigkeiten von KI-Modellen signifikant zu verbessern. Dieser Algorithmus, bekannt als Future-KL Influenced Policy Optimization (FIPO), unterscheidet sich von herkömmlichen Reinforcement-Learning-Methoden, indem er die Bedeutung einzelner Tokens innerhalb einer Argumentationskette differenziert bewertet. Das Ziel ist es, KI-Modelle zu befähigen, tiefer und selbstkritischer zu denken.

Die Herausforderung des Reinforcement Learning bei Argumentationsmodellen

Herkömmliche Reinforcement-Learning-Ansätze für große Sprachmodelle (LLMs) vergeben in der Regel eine einheitliche Belohnung oder Bestrafung für die gesamte generierte Antwort. Dies bedeutet, dass jeder Token in der Sequenz, unabhängig von seiner logischen Relevanz, die gleiche Gewichtung erhält. Ob ein Token einen entscheidenden logischen Wendepunkt markiert oder lediglich ein Satzzeichen ist, beeinflusst die Belohnung gleichermaßen. Das Qwen-Team identifizierte diese undifferenzierte Belohnungszuweisung als eine wesentliche Ursache dafür, dass Argumentationsmodelle mit gängigen Trainingsmethoden wie GRPO (Group Relative Policy Optimization) an ihre Grenzen stoßen. Die Länge der Argumentationsketten stagniert dabei oft ab einem bestimmten Punkt.

FIPO: Eine differenzierte Belohnungsstrategie

Mit FIPO möchte das Qwen-Team diesen Engpass überwinden. Anstatt jeden Token isoliert zu bewerten, blickt der Algorithmus vorausschauend: Er analysiert, wie sich das Verhalten des Modells nach der Generierung eines bestimmten Tokens verändert. FIPO berechnet die kumulative Wahrscheinlichkeitsverschiebung über alle nachfolgenden Tokens hinweg und nutzt dieses Signal, um Belohnungen präziser zu verteilen. Tokens, die eine produktive Argumentationskette einleiten, erhalten eine größere Belohnung, während Tokens, die das Modell in eine Sackgasse führen, weniger belohnt werden. Dieser Ansatz ermöglicht es dem Modell, die Auswirkungen jedes seiner Schritte auf den gesamten Denkprozess besser zu verstehen und zu optimieren.

Vorteile gegenüber PPO-basierten Methoden

Bisherige Versuche, das Problem der undifferenzierten Belohnung zu lösen, basierten häufig auf PPO-Methoden (Proximal Policy Optimization), die ein separates Wertmodell zur Schätzung eines Nutzenwerts für jeden Token verwenden. Diese Hilfsmodelle erfordern oft ein Vortraining mit umfangreichen Chain-of-Thought-Daten, was externen Wissenseintrag mit sich bringen kann. Die Forscher weisen darauf hin, dass es dadurch schwierig ist, festzustellen, ob Leistungsverbesserungen auf den Algorithmus selbst oder auf das vorab trainierte Hilfsmodell zurückzuführen sind. FIPO verzichtet vollständig auf ein solches Hilfsmodell und erzielt dennoch vergleichbare Ergebnisse. Dies trägt zur Transparenz und direkten Zurechenbarkeit der Leistungssteigerungen bei.

Um die Trainingsstabilität zu gewährleisten, integriert FIPO mehrere Schutzmechanismen. Ein Diskontierungsfaktor sorgt dafür, dass nahegelegene Tokens stärker gewichtet werden als weiter entfernte, da deren nachfolgender Einfluss ohnehin schwieriger vorherzusagen ist. Der Algorithmus filtert zudem Tokens heraus, bei denen das Modell zwischen den Trainingsschritten zu stark abgewichen ist. Ohne diesen Filter kam es zu erheblichen Instabilitäten im Training und einem starken Rückgang der Antwortlängen.

Deutliche Verbesserungen bei Denkkettenlänge und Genauigkeit

Das Team testete FIPO an Qwen2.5-32B-Base, einem Modell, das zuvor keinerlei Kontakt zu synthetischen Long-CoT-Daten hatte. Es wurde ausschließlich mit dem öffentlichen Datensatz von DAPO (Decoupled Clip and Dynamic sAmpling Policy Optimization) trainiert, einer gängigen Open-Source-GRPO-Trainingsvariante, um einen fairen Vergleich zu gewährleisten.

Die Ergebnisse zeigten klare Verbesserungen: Während die durchschnittliche Chain-of-Thought-Länge von DAPO bei etwa 4.000 Tokens stagnierte, erreichte FIPO über 10.000 Tokens. Bei der AIME 2024 Mathematik-Benchmark stieg die Genauigkeit von 50 auf 56 Prozent, mit einem Spitzenwert von 58 Prozent. Damit übertraf FIPO sowohl Deepseek-R1-Zero-Math-32B (etwa 47 Prozent) als auch OpenAI's o1-mini (rund 56 Prozent). Bei der anspruchsvolleren AIME 2025 stiegen die Werte von 38 auf 43 Prozent.

Die Forscher betonten, dass es sich nicht nur um einige Ausreißer handelte, die längere Antworten lieferten, sondern dass sich die gesamte Verteilung der Antwortlängen nach oben verschob. Dies deutet auf eine grundlegende Änderung in der Problemlösungsstrategie des Modells hin.

Das Modell beginnt, sich selbst zu überprüfen

Das Paper beschreibt vier Phasen, die das Modell während des Trainings durchläuft. In der Anfangsphase generiert es oberflächliche Planungsentwürfe – im Wesentlichen Gliederungen ohne tatsächliche Berechnungen, die in einer halluzinierten Antwort enden. In der zweiten Phase, in der DAPO-trainierte Modelle den Rest des Trainings verbleiben, führt das Modell eine saubere, lineare Argumentationskette aus und stoppt bei der ersten gefundenen Antwort.

In Phase drei beginnt das Modell spontan, seine eigenen Zwischenergebnisse zu überprüfen. Es erreicht eine Antwort, wechselt dann aber zu einem anderen Ansatz, beispielsweise von algebraischer Manipulation zu geometrischer Interpretation, um die Ergebnisse zu verifizieren. Bis Phase vier führt das Modell eine systematische Mehrfachverifizierung durch, indem es große quadratische Zahlen Schritt für Schritt neu berechnet und die vollständige Ableitung mehrmals durcharbeitet.

Das Paper stellt fest, dass dieses Verhalten den Inferenzzeit-Skalierungsstrategien in OpenAIs o-Serie und Deepseek-R1 sehr ähnelt, FIPO dies jedoch allein durch Reinforcement Learning erreicht, ohne synthetische Long-CoT-Daten zu verwenden.

Zukünftige Entwicklungen und Open-Source-Veröffentlichung

Die aktuellen Tests von FIPO konzentrierten sich auf mathematische Probleme und wurden mit einem einzigen Datensatz sowie auf Basismodellen ohne Long-CoT-Vortraining durchgeführt. Die längeren Sequenzen erhöhen zudem die Rechenkosten. Das Team weist darauf hin, dass weitere umfassende Tests erforderlich sind, um die Übertragbarkeit dieser Fortschritte auf andere Bereiche wie Code oder symbolische Logik zu prüfen. Es besteht ebenfalls noch eine Leistungslücke im Vergleich zur Destillation von größeren Lehrmodellen, da reines Reinforcement Learning einem Modell weniger beibringt als die direkte Anweisung durch ein stärkeres Modell.

Das Qwen-Team plant, das Trainingssystem zusammen mit allen Konfigurationen als Open Source zu veröffentlichen, um die weitere Forschung und Entwicklung in diesem Bereich zu fördern.

Alibabas Qwen-Modellreihe im Kontext

Alibabas Qwen-Modellreihe, die auch in anderen Bereichen wie Coding und maschineller Übersetzung kontinuierlich weiterentwickelt wird, positioniert sich als wichtiger Akteur im globalen KI-Wettbewerb. Mit der Einführung von Modellen wie Qwen3-Coder für fortschrittliches agentisches Codieren und Qwen-MT für maschinelle Übersetzung in 92 Sprachen unterstreicht Alibaba sein Engagement für Open-Source-Innovationen. Die kontinuierliche Forschung und Entwicklung, wie sie in FIPO zum Ausdruck kommt, zeigt den Bestreben, die Grenzen dessen zu erweitern, was KI-Modelle in Bezug auf komplexes Denken und Problemlösung leisten können. Die Integration von KI in Alibabas gesamte Ökosystem, von E-Commerce bis hin zu Unternehmenslösungen, verdeutlicht die strategische Bedeutung dieser Entwicklungen.

Die Fähigkeit, nativ multimodale Daten zu verarbeiten und lange Kontextfenster effizient zu nutzen, wie in Qwen 3.5 gezeigt, ist ein weiterer Beleg für die technologische Tiefe, die Alibabas Qwen-Team in die Entwicklung seiner KI-Modelle einbringt. Durch die Kombination von Gated Delta Networks, Mixture-of-Experts-Architektur und frühem multimodalen Fusion setzt Alibaba neue Maßstäbe für effiziente und leistungsstarke Sprachmodelle, die auch auf kleineren Geräten und mit geringerem Rechenaufwand betrieben werden können.

Bibliographie

- The Decoder. (2026, April 5). Alibaba’s Qwen team makes AI models think deeper with new algorithm. - Alibaba Group. (n.d.). Alibaba Unveils New Qwen3 Models for Coding, Complexing Reasoning and Machine Translation. - AIbase. (2025, January 16). Alibaba Qwen Team Releases New Process Reward Model, Advancing Mathematical Reasoning. - ETCentric. (2025, March 10). Alibaba Says Qwen Reasoning Model on Par with DeepSeek. - Hackernoon. (2026, February 28). Alibaba’s Qwen: The Chinese AI Model Challenging Silicon Valley. - SiliconANGLE. (2026, February 16). Alibaba releases multimodal Qwen3.5 mixture of experts model. - Medium. (2026, February 16). Alibaba Just Dropped Qwen 3.5 — A 397B-Parameter MoE Model That Only Activates 17B Per Token. Here’s What Makes It Tick. - Trilogy AI. (2026, March 4). [Deep Dive] Qwen 3.5 Brings Native Multimodality and Long Context to Small Open Models. - Qwen.ai. (2026, February 15). Qwen3.5: Towards Native Multimodal Agents. - Tech Buzz China. (2026, April 3). The Taobao Inside Qwen: Why Alibaba’s AI Gambit Is About Re-Architecting the Internet.