Neues Framework für Online Reinforcement Learning von Flow-basierten VLA-Modellen

Kategorien:

No items found.

Freigegeben:

March 9, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Der schnelle Überblick

π-StepNFT ist ein neues Framework für das Online Reinforcement Learning (RL) von Flow-basierten Vision-Language-Action (VLA)-Modellen.
Es ist "critic-and-likelihood-free", was bedeutet, dass es keine separaten Wertfunktionen oder die Berechnung komplexer Wahrscheinlichkeiten benötigt.
Das Framework ermöglicht eine breitere Exploration des Aktionsraums mittels stochastischer Differentialgleichungen (SDEs).
Es nutzt eine feinkörnigere, schrittweise Supervision, um die Stabilität des Lernens zu verbessern und Überanpassung zu vermeiden.
Experimente zeigen deutliche Leistungssteigerungen bei wenigen Beispielen (Few-shot) und eine verbesserte Generalisierung in unbekannten Szenarien (OOD).

Online Reinforcement Learning für Flow-basierte VLA-Modelle: Ein neuer Ansatz

Die Forschung im Bereich der Robotik und künstlichen Intelligenz (KI) hat in den letzten Jahren erhebliche Fortschritte gemacht, insbesondere bei der Entwicklung von Vision-Language-Action (VLA)-Modellen. Diese Modelle ermöglichen es Robotern, komplexe Aufgaben basierend auf visuellen Eingaben und sprachlichen Anweisungen auszuführen. Eine neue Entwicklung in diesem Feld ist das Framework π-StepNFT, das einen innovativen Ansatz für das Online Reinforcement Learning (RL) von Flow-basierten VLA-Modellen bietet. Dieser Artikel beleuchtet die Kernaspekte und die Bedeutung dieser Entwicklung für die Zukunft der Robotik und KI.

Herausforderungen bei existierenden VLA-Modellen

Flow-basierte VLA-Modelle zeigen vielversprechende Fähigkeiten in der verkörperten Steuerung (Embodied Control). Dennoch stehen sie vor Herausforderungen, insbesondere bei der Integration in Online-Reinforcement-Learning-Szenarien. Ein zentrales Problem ist die rechnerisch aufwendige Berechnung der Aktionswahrscheinlichkeiten während der Multi-Step-Abtastung. Dies erschwert die Anwendung traditioneller RL-Methoden, die auf solchen Wahrscheinlichkeiten basieren. Bisherige Lösungen umgingen dieses Problem entweder durch die Destillation von Werten im latenten Raum oder durch die Verwendung separater Wertfunktionen zur Einführung expliziter Konditionierung auf die Trajektorienqualität. Andere Ansätze versuchten, Wahrscheinlichkeiten durch Gaußsche Parametrisierung zu approximieren.

π-StepNFT: Eine kritiker- und wahrscheinlichkeitsfreie Lösung

Das vorgeschlagene π-StepNFT-Framework (Step-wise Negative-aware Fine-Tuning) adressiert diese Schwierigkeiten durch einen kritiker- und wahrscheinlichkeitsfreien Ansatz. Es benötigt lediglich einen einzigen Vorwärtsdurchlauf pro Optimierungsschritt und verzichtet auf Hilfs-Wertnetzwerke. Dies reduziert den Rechenaufwand erheblich und macht das Online-RL für Flow-basierte VLA-Modelle praktikabler.

Ein wesentlicher Bestandteil von π-StepNFT ist die Erkenntnis, dass breitere Explorationsräume eine feinkörnigere, schrittweise Führung für die Ausrichtung erfordern. Um dies zu erreichen, wurden systematisch das Zusammenspiel von Exploration und Supervision neu gestaltet:

Verbesserung der Exploration: Herkömmliche deterministische ODE-Rollouts führen schnell zu einer Verengung des Verhaltensraums. π-StepNFT führt stattdessen einen SDE-basierten Sampling-Mechanismus während des Trainings ein, der deterministische Rollouts mit strukturiertem Rauschen erweitert. Dies zwingt das Modell, benachbarte Zustände zu durchlaufen und den Verhaltensraum effektiv zu erweitern.
Feinere Supervision: Die erweiterte Exploration erfordert eine präzisere, schrittweise Supervision. π-StepNFT verschiebt das Vorhersageziel von der endgültigen denoisen Ausgabe zum unmittelbar nächsten Denoising-Schritt. Durch eine rauschbasierte Regression werden präzise lokale Gradienten erzeugt, die für eine robuste Ausrichtung notwendig sind.
Unterdrückung erfolgreicher Explorationen: Das Framework identifiziert, dass frühere Ansätze (wie Diffusion-NFT) eine "implizite Strafe" enthielten, die unbeabsichtigt Policy-Updates unterdrückte. π-StepNFT führt stattdessen einen logistischen kontrastiven Ranking-Loss ein, der eine "Push-Pull-Dynamik" etabliert: Er maximiert die Wahrscheinlichkeit erfolgreicher Trajektorien und unterdrückt gleichzeitig fehlgeschlagene. Dieses bidirektionale Signal ermöglicht eine aggressivere und präzisere Policy-Verbesserung.

Experimentelle Validierung und Ergebnisse

Die Wirksamkeit von π-StepNFT wurde durch umfangreiche Experimente auf den Benchmarks LIBERO und ManiSkill validiert. Die Ergebnisse zeigen, dass das Framework das latente Potenzial von VLA-Modellen freisetzt und signifikante Verbesserungen erzielt:

LIBERO-Benchmark: Freilegung von Potenzial bei wenigen Beispielen

Auf dem LIBERO-Benchmark, insbesondere in Szenarien mit wenigen Beispielen (Few-shot), konnte π-StepNFT die durchschnittliche Leistung der Modelle deutlich steigern. Bei der Initialisierung mit wenigen SFT-Beispielen (Supervised Fine-Tuning) zeigte sich eine Leistungssteigerung von 32,9% gegenüber dem reinen SFT-Ansatz. Dies deutet darauf hin, dass die breitere Exploration und die feinkörnigere Supervision von π-StepNFT es dem Modell ermöglichen, sich von einer begrenzten Anzahl von Expertendemonstrationen zu lösen und ein breiteres Spektrum an Lösungen zu entdecken.

ManiSkill-Benchmark: Kritikerfreie Generalisierung

Auf dem ManiSkill-Benchmark, der sich durch eine hohe visuelle Vielfalt und die Notwendigkeit der Generalisierung auf unbekannte Szenarien (Out-Of-Distribution, OOD) auszeichnet, zeigte π-StepNFT eine überlegene Generalisierungsfähigkeit. Es übertraf wertbasierte Baselines in OOD-Szenarien um 11,1%, indem es eine Überanpassung an multimodale Merkmale verhinderte. Dies unterstreicht die Fähigkeit des Frameworks, robuste und skalierbare Lösungen für komplexe Anwendungen in der realen Welt zu bieten, wo die Modelle mit unvorhergesehenen visuellen Variationen umgehen müssen.

Ablationsstudien: Einblicke in die Komponenten

Umfassende Ablationsstudien wurden durchgeführt, um die Beiträge der einzelnen Komponenten von π-StepNFT zu isolieren:

Stochastische Exploration: Der Einsatz von SDE-Sampling mit rauschbewusster Korrektur erwies sich als entscheidend für die Erweiterung des Verhaltensraums im Vergleich zu deterministischen ODEs. Eine effektive Exploration erfordert nicht nur das Durchqueren eines breiteren Raums, sondern auch ein Lernsignal, das die verrauschte Transition mathematisch auf das Geschwindigkeitsfeld der Policy ausrichtet.
Granularität des Regression-Ziels: Die schrittweise Supervision des unmittelbaren nächsten Denoising-Schritts (x_t-) führte zu einer deutlich stabileren und schnelleren Konvergenz als die Standard-Regression auf die endgültige Ausgabe (x₀). Dies betont die Bedeutung präziser, lokaler Supervision zur Bekämpfung der durch aktive Exploration eingeführten Verteilungsschiebung.
Formulierung der Objective-Funktion: Der kontrastive Ranking-Ansatz von π-StepNFT zeigte eine überlegene Leistung gegenüber dem gewichteten MSE (wMSE), da er eine "Push-Pull"-Dynamik etabliert und die "implizite Separation Penalty" eliminiert, die sonst die Größe des Policy-Updates unterdrücken würde.
Notwendigkeit expliziter Kritiker: Das Framework erreichte auch mit spärlichen binären Belohnungen eine wettbewerbsfähige Leistung, was darauf hindeutet, dass explizite Wertschätzungen nicht zwingend erforderlich sind und die Komplexität des Systems reduziert werden kann.

Fazit und Ausblick

π-StepNFT stellt einen bedeutenden Fortschritt im Online Reinforcement Learning für Flow-basierte VLA-Modelle dar. Durch die Eliminierung von Hilfs-Wertnetzwerken und die Notwendigkeit komplexer Wahrscheinlichkeitsberechnungen bietet es eine skalierbare und robuste Methode zur Feinabstimmung von Robotik-Policies. Die Fähigkeit, das Potenzial von Modellen in Few-shot-Szenarien freizusetzen und eine überlegene Generalisierung in OOD-Umgebungen zu erreichen, macht es zu einer vielversprechenden Lösung für komplexe reale Anwendungen. Die kontinuierliche Forschung in diesem Bereich wird voraussichtlich zu noch effizienteren und anpassungsfähigeren Robotersystemen führen.

Die Implikationen von π-StepNFT reichen über rein algorithmische Fortschritte hinaus. Die reduzierte Rechenlast und die verbesserte Robustheit können den Zugang zur Forschung im Bereich der verkörperten KI demokratisieren und die Entwicklung zuverlässigerer autonomer Agenten fördern. Während die erhöhte Leistungsfähigkeit auch Bedenken hinsichtlich des Missbrauchs aufwerfen könnte, fördert die feinkörnige Supervision eine stärkere Einhaltung der Expertentrajektorien und könnte unvorhersehbares Verhalten während des Einsatzes minimieren.

Bibliography: - Wang, S., Wang, X., Zhu, Z., Pei, M., Cui, X., Deng, C., Zhao, J., Huang, G., Zhang, H., & Wang, J. (2026). π-StepNFT: Wider Space Needs Finer Steps in Online RL for Flow-based VLAs. arXiv preprint arXiv:2603.02083. - Chen, K., Liu, Z., Zhang, T., Guo, Z., Xu, S., Lin, H., Zang, H., Li, X., Zhang, Q., Yu, Z., Fan, G., Huang, T., Wang, Y., & Yu, C. (2025). π_RL: Online RL Fine-tuning for Flow-based Vision-Language-Action Models. arXiv preprint arXiv:2510.25889. - Zheng, K., Chen, H., Ye, H., Wang, H., Zhang, Q., Jiang, K., Su, H., Ermon, S., Zhu, J., & Liu, M. (2025). DiffusionNFT: Online Diffusion Reinforcement with Forward Process. arXiv preprint arXiv:2509.16117. - Liu, B., Zhu, Y., Gao, C., Feng, Y., Liu, Q., Zhu, Y., & Stone, P. (2023). LIBERO: Benchmarking Knowledge Transfer for Lifelong Robot Learning. Advances in Neural Information Processing Systems 36, 44776–44791. - Mu, T., Ling, Z., Xiang, F., Yang, D., Li, X., Tao, S., Huang, Z., Jia, Z., & Su, H. (2021). ManiSkill: Generalizable Manipulation Skill Benchmark with Large-Scale Demonstrations. arXiv preprint arXiv:2107.14483.