KI für Ihr Unternehmen – Jetzt Demo buchen

RL-100 Framework: Fortschritte im Training von Robotern mit Reinforcement Learning

Kategorien:
No items found.
Freigegeben:
October 20, 2025

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

1
🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

2
🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

3
⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

4
🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

5
👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Inhaltsverzeichnis

    mindverse studio – Ihre Plattform für digitale Effizienz

    Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.
    Mehr über Mindverse Studio erfahren

    Das Wichtigste in Kürze

    • RL-100 ist ein dreistufiges Framework für das Training von Robotern mittels Reinforcement Learning (RL) in realen Umgebungen.
    • Es kombiniert Imitationslernen, iteratives Offline-RL und Online-RL, um eine hohe Zuverlässigkeit, Effizienz und Robustheit zu erreichen.
    • Das Framework erreicht eine Erfolgsquote von 100 % bei sieben komplexen Roboteraufgaben.
    • Durch Konsistenzdestillation wird eine drastische Reduzierung der Latenzzeit für die Aktionsgenerierung erzielt, was Hochfrequenzsteuerung ermöglicht.
    • RL-100 zeigt starke Generalisierungsfähigkeiten gegenüber neuen Dynamiken und schnelle Anpassung an Aufgabenvariationen.
    • Die Effizienz übertrifft die menschlicher Teleoperatoren in mehreren Aufgaben, und die Robustheit erstreckt sich über mehrere Stunden ununterbrochenen Betriebs.

    Die autonome Manipulation durch Roboter in privaten Haushalten und industriellen Umgebungen stellt eine der zentralen Herausforderungen in der Robotik dar. Die Anforderungen an Zuverlässigkeit, Effizienz und Robustheit sind dabei extrem hoch und sollen idealerweise die Fähigkeiten menschlicher Bediener erreichen oder übertreffen. Das RL-100-Framework, entwickelt von einem Team von Forschern, stellt einen umfassenden Ansatz dar, um diese Ziele durch eine innovative Kombination aus Imitationslernen und Reinforcement Learning zu erreichen. Dieser Artikel beleuchtet die Architektur, die Kernkomponenten und die beeindruckenden Ergebnisse von RL-100, die einen vielversprechenden Weg für den Einsatz von Robotern in der realen Welt aufzeigen.

    Der RL-100 Ansatz: Ein Dreistufen-Trainingspipeline

    Das RL-100-Framework basiert auf einer dreistufigen Pipeline, die darauf abzielt, die Stärken menschlicher Vorkenntnisse zu nutzen und die Roboterleistung darüber hinaus zu erweitern. Die Phasen umfassen:

    1. Imitationslernen (IL)

    Die initiale Phase des RL-100 Frameworks beginnt mit dem Imitationslernen. Hierbei wird die Roboterpolitik durch das Klonen von menschlich teleoperierten Demonstrationen initialisiert. Diese Demonstrationen, die synchronisierte visuelle Beobachtungen (RGB-Bilder oder 3D-Punktwolken) und Roboterpropriozeption (Gelenkpositionen/-geschwindigkeiten, Greiferzustand) umfassen, bilden eine grundlegende, kompetente und varianzarme Basis. Die Nutzung von generativen Diffusionspolitiken, die auf hochwertigen menschlichen Daten trainiert oder feinjustiert werden, ermöglicht es den Robotern, effiziente Strategien von erfahrenen Teleoperatoren zu erlernen. Diese Phase ist entscheidend, um dem System starke menschliche Vorkenntnisse zu vermitteln und eine solide Ausgangsbasis für die nachfolgenden Lernschritte zu schaffen.

    2. Iteratives Offline Reinforcement Learning (RL)

    Nach der Initialisierung durch Imitationslernen folgt die Phase des iterativen Offline Reinforcement Learning. Hierbei wird die Politik durch Offline-Updates auf einem wachsenden Puffer von Politikausführungen verbessert. Ein zentrales Element ist dabei das Offline Policy Evaluation (OPE)-Verfahren, das PPO-ähnliche Updates steuert, die im Denoisierungs-Prozess angewendet werden. Dies führt zu einer konservativen und zuverlässigen Leistungssteigerung, insbesondere in Bezug auf die Erfolgsrate und Effizienz. Die meisten Lernbudgets werden in diese Phase investiert, da sie den Großteil der Verbesserung liefert und die Politik auf eine hohe Erfolgsrate (z. B. 95 %) bringt, ohne auf ressourcenintensive Online-Interaktionen angewiesen zu sein.

    3. Online Reinforcement Learning (RL)

    Die letzte Stufe des Frameworks ist das Online Reinforcement Learning, das dazu dient, verbleibende Fehlermodi zu eliminieren und die Leistung auf ein nahezu perfektes Niveau zu heben. Obwohl ressourcenintensiv, wird ein kleines, gezieltes Online-Budget eingesetzt, um die Politik von einer hohen Erfolgsrate (z. B. 95 %) auf nahezu fehlerfreie Leistung (z. B. 99 %+) zu verbessern. Diese Phase trägt die „Kirsche auf dem Sahnehäubchen“ bei und gewährleistet die letztendliche Zuverlässigkeit für den Einsatz in der realen Welt.

    Kerninnovationen und technische Details

    Das RL-100-Framework zeichnet sich durch mehrere technische Innovationen aus, die seine Leistungsfähigkeit und Generalisierbarkeit ermöglichen:

    • Einheitliches Trainingsframework: Die Pipeline verbindet IL-Vortraining, iteratives Offline-RL und Online-RL. Die meisten Updates sind dem iterativen Offline-Lernen zugeordnet, mit einem kleinen, gezielten Online-Budget für die letzte Meile zur einsatzbereiten Leistung.
    • Konsistenzdestillation für Hochfrequenzsteuerung: Eine zusätzliche, leichte Konsistenzdestillationsschicht komprimiert den mehrstufigen Abtastprozess der Diffusion in eine einstufige Politik. Dies ermöglicht eine Hochfrequenzsteuerung mit einer um eine Größenordnung reduzierten Latenz, während die Aufgabenleistung erhalten bleibt. Dies ist entscheidend für den Einsatz in dynamischen Umgebungen, wo schnelle Reaktionszeiten erforderlich sind.
    • Repräsentationsagnostisch: Das Framework ist unabhängig von der Repräsentation und unterstützt sowohl 3D-Punktwolken als auch 2D-RGB-Bilder als Eingaben. Dies wird durch den einfachen Austausch von Beobachtungs-Encodern erreicht, ohne den Rest des Frameworks zu modifizieren. Ein selbstüberwachter visueller Encoder ist speziell für das RL-Nachtraining konzipiert, um stabile, aufgabenrelevante Merkmale während der Politiker-Exploration und -Updates bereitzustellen.
    • Aufgaben- und Embodiment-agnostisch: RL-100 wurde auf einer Vielzahl von Roboterplattformen und Aufgaben evaluiert. Die Unterstützung von sowohl Einzelaktions- als auch Aktions-Chunk-Politiken erhöht die Flexibilität und Anwendbarkeit auf unterschiedliche Manipulationsszenarien.
    • Einsatzorientierte Metriken: Die Bewertung von RL-100 konzentriert sich auf Zuverlässigkeit (Erfolgsrate), Effizienz (Zeit bis zur Fertigstellung) und Robustheit (anhaltende Stabilität über lange Einsatzzeiten und bei Störungen).

    Experimentelle Ergebnisse und Leistungsbewertung

    Die Leistungsfähigkeit von RL-100 wurde anhand von sieben realen Roboteraufgaben demonstriert, die ein breites Spektrum an Manipulationsherausforderungen abdecken:

    • Dynamisches Schieben (Push-T): Ein T-förmiger Block muss präzise in einen Schlitz geschoben werden, wobei dynamische Anpassungen und die Vermeidung von Fehlpositionierungen erforderlich sind.
    • Agiles Bowling: Ein Curlingstein muss mit hoher Geschwindigkeit und Präzision geschoben werden, um Bowling-Pins umzuwerfen.
    • Gießen: Das präzise Gießen von Flüssigkeiten oder Granulaten aus einem Becher in einen Behälter, wobei die Stabilität des Griffs und die Ausrichtung unter Bewegung entscheidend sind.
    • Dynamisches Abschrauben: Das präzise Entfernen einer Mutter von einer Schraube mit einer geschickten Hand, was zeitlich variierende Ausrichtung und Drehmomentregelung erfordert.
    • Falten von weichen Tüchern: Eine duale Roboterarmkoordination zum präzisen Falten eines zerknitterten Tuchs.
    • Orangensaftpressen (zweistufig): Das Platzieren einer halbierten Orange in einer Saftpresse und das anschließende Entfernen des Fruchtfleisches, was das Management von Formvariabilität und begrenztem Raum umfasst.

    Die Ergebnisse zeigen, dass RL-100 eine 100%ige Erfolgsquote über alle bewerteten Aufgaben hinweg erreicht, einschließlich bis zu 250 aufeinanderfolgenden erfolgreichen Versuchen bei einer Aufgabe. Die Methode erreicht eine Zeit-Effizienz, die der menschlichen Teleoperation ähnelt oder diese sogar übertrifft, und demonstriert eine stundenlange Robustheit mit ununterbrochenem Betrieb von bis zu zwei Stunden.

    Generalisierung und Robustheit

    Ein weiterer wichtiger Aspekt von RL-100 ist seine Fähigkeit zur Generalisierung und Robustheit:

    • Zero-Shot-Anpassung: Die trainierten Politiken generalisieren "zero-shot" auf neue Dynamiken mit einer durchschnittlichen Erfolgsrate von 92,5 %, ohne erneutes Training oder Feinabstimmung. Dies wurde durch Aufgaben wie das Gießen von Wasser anstelle von Nüssen oder das Schieben von Objekten auf Oberflächen mit veränderter Reibung demonstriert.
    • Few-Shot-Anpassung: Bei erheblichen Aufgabenvariationen passen sich die Politiken mit wenigen "Shots" an und erreichen nach ein bis drei Stunden zusätzlichem Training eine durchschnittliche Erfolgsrate von 86,7 %. Beispiele hierfür sind das Falten von Tüchern aus anderem Material oder das Bowling mit umgekehrter Pin-Anordnung.
    • Robustheit gegenüber Störungen: Die Politiken zeigen eine hohe Widerstandsfähigkeit gegenüber realen physikalischen Störungen, die von Menschen während der Aufgaben Ausführung angewendet werden. Bei Aufgaben wie dem Falten von Tüchern oder dem dynamischen Abschrauben wurde trotz externer Kräfte eine durchschnittliche Erfolgsrate von 95,0 % erzielt.

    Effizienz der Ausführung

    Die Effizienz der Ausführung wurde aus vier Perspektiven bewertet:

    • Episodenlänge in erfolgreichen Trajektorien: RL-100 übertrifft Imitations-Baselines konsistent, da die belohnungsgesteuerte Politikoptimierung zu effizienteren Trajektorien führt.
    • Wanduhrenzeit pro Episode: Die Konsistenzmodell-Variante von RL-100 erreicht eine drastische Reduzierung der Latenzzeit, was zu einer schnelleren Episodenabwicklung führt.
    • Vergleich mit menschlichen Operatoren: RL-100 übertrifft menschliche Experten und Anfänger in der Durchsatzrate, was die Überlegenheit der gelernten Politik in repetitiven Szenarien unterstreicht.
    • Episodenlänge einschließlich Fehlschlägen: RL-100-Politiken führen zu signifikant kürzeren durchschnittlichen Horizonten, auch bei Fehlschlägen, wodurch unnötige Ausführungszeit vermieden wird.

    Ausblick und zukünftige Forschungsrichtungen

    Die Ergebnisse von RL-100 deuten auf einen praktischen Weg zur einsatzbereiten Robotersteuerung hin, indem menschliche Vorkenntnisse als Ausgangspunkt genutzt, Trainingsziele an menschlich fundierten Metriken ausgerichtet und die Leistung zuverlässig über menschliche Demonstrationen hinaus erweitert wird.

    Zukünftige Arbeiten könnten die Bewertung auf komplexere, unübersichtlichere und teilweise beobachtbare Szenen ausdehnen, die die Variabilität von Haushalten und Fabriken besser widerspiegeln. Dazu gehören dynamische Multi-Objekt-Einstellungen, Verdeckungen, spiegelnde/transparente Materialien, wechselnde Beleuchtung und nicht-stationäre Layouts. Auch die Skalierung des Nachtrainings auf größere, Multi-Task-, Multi-Roboter Vision-Language-Action (VLA)-Modelle ist ein vielversprechender Ansatz.

    Das RL-100-Framework stellt einen bedeutenden Fortschritt in der Robotik dar, indem es die Lücke zwischen Laborexperimenten und dem zuverlässigen Einsatz in der realen Welt schließt. Die Kombination aus sorgfältig konzipiertem Trainingsablauf und technischen Innovationen ermöglicht es Robotern, komplexe Manipulationsaufgaben mit einer bisher unerreichten Präzision, Effizienz und Robustheit auszuführen.

    Literaturverzeichnis

    - Lei, K., Li, H., Yu, D., Wei, Z., Guo, L., Jiang, Z., Wang, Z., Liang, S., & Xu, H. (2025). RL-100: Performant Robotic Manipulation with Real-World Reinforcement Learning. arXiv preprint arXiv:2510.14830. - Stulp, F. (2024). Guiding real-world reinforcement learning for in-contact manipulation tasks with Shared Control Templates. Autonomous Robots, 48(12). - Zhang, J., & Anwar, A. (2025). From Generalists to Specialists: A Case for Real-World RL in Robot Manipulation. USC RASC Blog. - Jiang, Z. (2025). RL-100: Performant Robotic Manipulation with Real-World Reinforcement Learning. Personal Website. - Yan, M. (2025). Robotics | Cool Papers - Immersive Paper Discovery. Papers Cool. - IEEE Xplore. (2025). Towards Autonomous Reinforcement Learning for Real-World Robotic Manipulation With Large Language Models. IEEE.

    Artikel jetzt als Podcast anhören

    Kunden die uns vertrauen:
    Arise Health logoArise Health logoThe Paak logoThe Paak logoOE logo2020INC logoEphicient logo
    und viele weitere mehr!

    Bereit für den nächsten Schritt?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen