Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Forschung und Entwicklung im Bereich der Robotik, insbesondere bei lernbasierten Algorithmen, steht vor der Herausforderung, Modelle nicht nur in Simulationen, sondern auch in der realen Welt umfassend zu testen. Mit der Einführung von RoboChallenge, einem neuen Online-Bewertungssystem, wird ein signifikanter Schritt unternommen, um diese Lücke zu schließen. Dieses System zielt darauf ab, eine skalierbare und reproduzierbare Evaluierung von Robotersteuerungsalgorithmen, insbesondere von Vision-Language-Action (VLA)-Modellen, auf echten Robotern zu ermöglichen. Es adressiert die steigende Nachfrage nach groß angelegten Bewertungen, bei denen eine Vielzahl von Modellen über eine breite Palette von Aufgaben hinweg getestet werden muss.
Die Evaluierung von Robotermodellen in der realen Welt ist von entscheidender Bedeutung, da Simulationen die Komplexität und Unvorhersehbarkeit physischer Umgebungen oft nicht vollständig abbilden können. Der Übergang von der Simulation zur realen Anwendung, bekannt als Sim-to-Real-Transfer, bleibt eine große Herausforderung. RoboChallenge bietet eine Infrastruktur, die es Forschenden und Entwicklern ermöglicht, ihre Algorithmen unter realistischen Bedingungen zu testen und zu vergleichen. Dies ist besonders wichtig für VLA-Modelle, die visuelle Informationen, Sprachbefehle und physische Aktionen integrieren, um komplexe Aufgaben auszuführen.
RoboChallenge implementiert ein "Remote-Roboter"-Paradigma. Anstatt dass Nutzer ihre Modelle oder Docker-Images direkt einreichen, werden die Modelle auf der Nutzerseite evaluiert. Dies umgeht Komplexitäten wie Software-Stack-Inkompatibilitäten und Netzwerkzugriffsprobleme. Das System bietet einen asynchronen Zugriff auf Roboter und Sensoren. Nutzer senden Aufnahmeanforderungen und erhalten präzise zeitgestempelte Beobachtungen (RGB, Tiefe, Propriozeption). Gleichzeitig können Aktionen mit spezifischer Dauer in eine FIFO-Aktionswarteschlange des Roboters gestellt werden. Der Roboter führt diese Aktionen sequenziell aus, und das System informiert den Nutzer über die aktuelle Warteschlangenlänge. Dieses asynchrone Design ermöglicht eine feinkörnige Steuerung und komplexe temporale Strategien.
Ein zentrales Element von RoboChallenge ist das Engagement für die Reduzierung der Variabilität, die typischerweise mit realen Robotertests verbunden ist. Menschliche Tester können durch inkonsistente Objektplatzierung oder "Sweet-Spot-Effekte" (optimale Anfangskonfigurationen) Verzerrungen einführen. Um dies zu adressieren, wurde das Verfahren der "Visual Task Reproduction" entwickelt. Dabei wird ein Referenzbild aus einem Demonstrations-Episode-Startframe in den Live-Kamera-Feed des Testers eingeblendet. Die Tester passen die physische Szene und die Objekte an, bis die Live-Eingabe visuell mit dem Referenzbild übereinstimmt. Dies standardisiert den Anfangszustand über alle Evaluierungen hinweg und erhöht die Reproduzierbarkeit der Ergebnisse.
Unkontrollierbare Umgebungsfaktoren wie Lichtverschiebungen oder Kamera-Extrinsik-Drift werden als beabsichtigte Störungen betrachtet, für die robuste VLA-Modelle generalisieren sollten. Experimente haben gezeigt, dass VLA-Modelle eine gewisse Resilienz gegenüber Bildveränderungen aufweisen. Das Protokoll konzentriert sich primär auf die "Stabilität" (Reproduzierbarkeit der Ergebnisse eines einzelnen Modells). Für zukünftige Wettbewerbe wird ein "vergleichendes Protokoll" vorgeschlagen, um "Fairness" zu gewährleisten, bei dem Modelle zufällig zur Evaluierung ausgewählt werden, ohne dass der Tester das zu testende Modell kennt.
Der initiale Benchmark von RoboChallenge, genannt "Table30", besteht aus 30 verschiedenen Aufgaben, die auf oder um einen festen Tisch herum ausgeführt werden. Diese Aufgaben wurden entwickelt, um verschiedene Aspekte von VLA-Modellen herauszufordern:
Neben der traditionellen Erfolgsquote wurde ein verfeinertes "Grading-Protokoll" eingeführt. Aufgaben werden in mehrere Stufen unterteilt, wobei jeder Stufe "Fortschrittspunkte" zugewiesen werden. Bei jedem Wiederholungsversuch innerhalb einer Stufe wird der Fortschrittswert um 0,5 Punkte reduziert. Der Gesamtfortschrittswert einer Aufgabe über 10 Durchläufe beträgt 100 Punkte. Dies bietet ein nuancierteres Maß für Teilerfolge und Effizienz und ermöglicht eine detailliertere Analyse der Modellleistung über den reinen Erfolg oder Misserfolg hinaus.
Eine erste Untersuchung evaluierte vier führende VLA-Algorithmen: π₀, π₀.₅, CogACT und OpenVLA/OFT. Die Modelle wurden in zwei Szenarien getestet: einem "Aufgabenspezifischen" Setting (trainiert mit allen Demonstrationsdaten für jede Aufgabe) und einem "Generalisten"-Setting (trainiert mit begrenzten, gemischten Daten von Aufgaben desselben Maschinentyps). Die Ergebnisse zeigten eine klare Leistungshierarchie, wobei π₀.₅ (feinabgestimmt) die anderen Modelle bei Erfolgsquoten und Fortschrittswerten signifikant übertraf. Die Leistung von π₀.₅ im Generalisten-Setting, die manchmal sogar aufgabenspezifische Modelle übertraf, deutet auf vielversprechende Wege für zukünftige Generalisten-Robotermodelle hin.
Die Aufgabenanalyse ergab, dass Aufgaben mit "temporaler Abhängigkeit" und der Manipulation von "weichen Körpern" für aktuelle Single-Frame-VLA-Modelle besonders herausfordernd waren. "Präzise 3D"-Aufgaben waren aufgrund der geringen Auflösung der visuellen Eingaben ebenfalls schwieriger. Im Gegensatz dazu zeigten "Klassifikations-" und "Manipulations-"Aufgaben sowie "einfache Greif"-Aufgaben höhere Erfolgsquoten, was darauf hindeutet, dass semantisches Verständnis und grundlegende Pick-and-Place-Fähigkeiten für aktuelle VLA-Modelle besser beherrschbar sind.
RoboChallenge stellt somit eine wesentliche Infrastruktur und eine robuste Methodik für die groß angelegte Evaluierung von Robotermodellen in realen Umgebungen dar. Es beleuchtet die aktuellen Fähigkeiten von VLA-Modellen und identifiziert kritische Forschungsbereiche für die zukünftige Entwicklung verkörperter Intelligenz.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen