KI für Ihr Unternehmen – Jetzt Demo buchen

RoboChallenge: Fortschritte in der Evaluation von Robotermodellen in realen Umgebungen

Kategorien:
No items found.
Freigegeben:
November 9, 2025

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

1
🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

2
🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

3
⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

4
🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

5
👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Inhaltsverzeichnis

    mindverse studio – Ihre Plattform für digitale Effizienz

    Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.
    Mehr über Mindverse Studio erfahren

    Das Wichtigste in Kürze

    • RoboChallenge ist ein neues Online-Bewertungssystem für Robotersteuerungsalgorithmen, insbesondere Vision-Language-Action (VLA)-Modelle.
    • Es wurde entwickelt, um die Skalierbarkeit und Reproduzierbarkeit bei der Bewertung von Robotermodellen auf realen Robotern zu verbessern.
    • Das System nutzt ein "Remote-Roboter"-Paradigma, das es ermöglicht, Modelle serverseitig zu evaluieren und so Herausforderungen wie Software-Inkompatibilität zu umgehen.
    • Der initiale Benchmark, "Table30", umfasst 30 verschiedene Aufgaben, die auf oder um einen festen Tisch herum ausgeführt werden und verschiedene Fähigkeiten von VLA-Modellen testen.
    • Ein neuartiges "Visual Task Reproduction"-Verfahren wird eingesetzt, um die Startbedingungen für jede Aufgabe zu standardisieren und menschliche Fehler zu minimieren.
    • Die Bewertung umfasst nicht nur die Erfolgsquote, sondern auch ein detailliertes "Progress Score"-System, das Teilerfolge und Effizienz misst.
    • Erste Tests mit führenden VLA-Algorithmen haben Leistungshierarchien aufgezeigt und Bereiche identifiziert, in denen aktuelle Modelle noch Schwierigkeiten haben, wie z.B. bei Aufgaben mit zeitlicher Abhängigkeit oder bei der Manipulation weicher Körper.

    RoboChallenge: Eine neue Ära der Roboter-Evaluierung in realen Umgebungen

    Die Forschung und Entwicklung im Bereich der Robotik, insbesondere bei lernbasierten Algorithmen, steht vor der Herausforderung, Modelle nicht nur in Simulationen, sondern auch in der realen Welt umfassend zu testen. Mit der Einführung von RoboChallenge, einem neuen Online-Bewertungssystem, wird ein signifikanter Schritt unternommen, um diese Lücke zu schließen. Dieses System zielt darauf ab, eine skalierbare und reproduzierbare Evaluierung von Robotersteuerungsalgorithmen, insbesondere von Vision-Language-Action (VLA)-Modellen, auf echten Robotern zu ermöglichen. Es adressiert die steigende Nachfrage nach groß angelegten Bewertungen, bei denen eine Vielzahl von Modellen über eine breite Palette von Aufgaben hinweg getestet werden muss.

    Die Notwendigkeit realer Bewertungen

    Die Evaluierung von Robotermodellen in der realen Welt ist von entscheidender Bedeutung, da Simulationen die Komplexität und Unvorhersehbarkeit physischer Umgebungen oft nicht vollständig abbilden können. Der Übergang von der Simulation zur realen Anwendung, bekannt als Sim-to-Real-Transfer, bleibt eine große Herausforderung. RoboChallenge bietet eine Infrastruktur, die es Forschenden und Entwicklern ermöglicht, ihre Algorithmen unter realistischen Bedingungen zu testen und zu vergleichen. Dies ist besonders wichtig für VLA-Modelle, die visuelle Informationen, Sprachbefehle und physische Aktionen integrieren, um komplexe Aufgaben auszuführen.

    Architektur und Methodik von RoboChallenge

    RoboChallenge implementiert ein "Remote-Roboter"-Paradigma. Anstatt dass Nutzer ihre Modelle oder Docker-Images direkt einreichen, werden die Modelle auf der Nutzerseite evaluiert. Dies umgeht Komplexitäten wie Software-Stack-Inkompatibilitäten und Netzwerkzugriffsprobleme. Das System bietet einen asynchronen Zugriff auf Roboter und Sensoren. Nutzer senden Aufnahmeanforderungen und erhalten präzise zeitgestempelte Beobachtungen (RGB, Tiefe, Propriozeption). Gleichzeitig können Aktionen mit spezifischer Dauer in eine FIFO-Aktionswarteschlange des Roboters gestellt werden. Der Roboter führt diese Aktionen sequenziell aus, und das System informiert den Nutzer über die aktuelle Warteschlangenlänge. Dieses asynchrone Design ermöglicht eine feinkörnige Steuerung und komplexe temporale Strategien.

    Standardisierung und Reproduzierbarkeit

    Ein zentrales Element von RoboChallenge ist das Engagement für die Reduzierung der Variabilität, die typischerweise mit realen Robotertests verbunden ist. Menschliche Tester können durch inkonsistente Objektplatzierung oder "Sweet-Spot-Effekte" (optimale Anfangskonfigurationen) Verzerrungen einführen. Um dies zu adressieren, wurde das Verfahren der "Visual Task Reproduction" entwickelt. Dabei wird ein Referenzbild aus einem Demonstrations-Episode-Startframe in den Live-Kamera-Feed des Testers eingeblendet. Die Tester passen die physische Szene und die Objekte an, bis die Live-Eingabe visuell mit dem Referenzbild übereinstimmt. Dies standardisiert den Anfangszustand über alle Evaluierungen hinweg und erhöht die Reproduzierbarkeit der Ergebnisse.

    Unkontrollierbare Umgebungsfaktoren wie Lichtverschiebungen oder Kamera-Extrinsik-Drift werden als beabsichtigte Störungen betrachtet, für die robuste VLA-Modelle generalisieren sollten. Experimente haben gezeigt, dass VLA-Modelle eine gewisse Resilienz gegenüber Bildveränderungen aufweisen. Das Protokoll konzentriert sich primär auf die "Stabilität" (Reproduzierbarkeit der Ergebnisse eines einzelnen Modells). Für zukünftige Wettbewerbe wird ein "vergleichendes Protokoll" vorgeschlagen, um "Fairness" zu gewährleisten, bei dem Modelle zufällig zur Evaluierung ausgewählt werden, ohne dass der Tester das zu testende Modell kennt.

    Der Table30 Benchmark

    Der initiale Benchmark von RoboChallenge, genannt "Table30", besteht aus 30 verschiedenen Aufgaben, die auf oder um einen festen Tisch herum ausgeführt werden. Diese Aufgaben wurden entwickelt, um verschiedene Aspekte von VLA-Modellen herauszufordern:

    • Präzise 3D-Lokalisation: Erfordert genaues Greifen oder Platzieren von Objekten.
    • Okklusion und Mehrfachansicht: Nutzung von Informationen mehrerer Kameras bei verdeckten Objekten.
    • Temporale Abhängigkeit: Aufgaben, bei denen identische Beobachtungen in verschiedenen Stadien auftreten und ein Gedächtnis für den Fortschritt erfordern.
    • Mehrstufige und Langzeitziel-Aufgaben: Sequentielle Schritte oder wiederholte Fähigkeiten.
    • Objekterkennung: Unterscheidung von Objekten zur Ausführung unterschiedlicher Aktionen.
    • Verwendung beider Arme: Aufgaben, die zweihändige Manipulation erfordern.
    • Weiche Körper: Handhabung verformbarer Materialien.

    Detaillierte Bewertung mit Progress Scores

    Neben der traditionellen Erfolgsquote wurde ein verfeinertes "Grading-Protokoll" eingeführt. Aufgaben werden in mehrere Stufen unterteilt, wobei jeder Stufe "Fortschrittspunkte" zugewiesen werden. Bei jedem Wiederholungsversuch innerhalb einer Stufe wird der Fortschrittswert um 0,5 Punkte reduziert. Der Gesamtfortschrittswert einer Aufgabe über 10 Durchläufe beträgt 100 Punkte. Dies bietet ein nuancierteres Maß für Teilerfolge und Effizienz und ermöglicht eine detailliertere Analyse der Modellleistung über den reinen Erfolg oder Misserfolg hinaus.

    Erste Ergebnisse und zukünftige Richtungen

    Eine erste Untersuchung evaluierte vier führende VLA-Algorithmen: π₀, π₀.₅, CogACT und OpenVLA/OFT. Die Modelle wurden in zwei Szenarien getestet: einem "Aufgabenspezifischen" Setting (trainiert mit allen Demonstrationsdaten für jede Aufgabe) und einem "Generalisten"-Setting (trainiert mit begrenzten, gemischten Daten von Aufgaben desselben Maschinentyps). Die Ergebnisse zeigten eine klare Leistungshierarchie, wobei π₀.₅ (feinabgestimmt) die anderen Modelle bei Erfolgsquoten und Fortschrittswerten signifikant übertraf. Die Leistung von π₀.₅ im Generalisten-Setting, die manchmal sogar aufgabenspezifische Modelle übertraf, deutet auf vielversprechende Wege für zukünftige Generalisten-Robotermodelle hin.

    Die Aufgabenanalyse ergab, dass Aufgaben mit "temporaler Abhängigkeit" und der Manipulation von "weichen Körpern" für aktuelle Single-Frame-VLA-Modelle besonders herausfordernd waren. "Präzise 3D"-Aufgaben waren aufgrund der geringen Auflösung der visuellen Eingaben ebenfalls schwieriger. Im Gegensatz dazu zeigten "Klassifikations-" und "Manipulations-"Aufgaben sowie "einfache Greif"-Aufgaben höhere Erfolgsquoten, was darauf hindeutet, dass semantisches Verständnis und grundlegende Pick-and-Place-Fähigkeiten für aktuelle VLA-Modelle besser beherrschbar sind.

    RoboChallenge stellt somit eine wesentliche Infrastruktur und eine robuste Methodik für die groß angelegte Evaluierung von Robotermodellen in realen Umgebungen dar. Es beleuchtet die aktuellen Fähigkeiten von VLA-Modellen und identifiziert kritische Forschungsbereiche für die zukünftige Entwicklung verkörperter Intelligenz.

    Bibliographie

    - Yakefu, A., Xie, B., Xu, C., Zhang, E., Zhou, E., Jia, F., ... & Yan, Z. (2025). RoboChallenge: Large-scale Real-robot Evaluation of Embodied Policies. arXiv preprint arXiv:2510.17950. - Hugging Face Paper Page: RoboChallenge: Large-scale Real-robot Evaluation of Embodied Policies. (2025). Verfügbar unter: https://huggingface.co/papers/2510.17950 - TheMoonlight.io: [Literature Review] RoboChallenge: Large-scale Real-robot Evaluation of Embodied Policies. (2025). Verfügbar unter: https://www.themoonlight.io/en/review/robochallenge-large-scale-real-robot-evaluation-of-embodied-policies - RoboChallenge.ai Hugging Face Organisation: https://huggingface.co/RoboChallenge

    Artikel jetzt als Podcast anhören

    Kunden die uns vertrauen:
    Arise Health logoArise Health logoThe Paak logoThe Paak logoOE logo2020INC logoEphicient logo
    und viele weitere mehr!

    Bereit für den nächsten Schritt?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen