DreamDojo: Ein neuer Ansatz zur Roboterausbildung mit menschlichen Videodaten

Kategorien:

No items found.

Freigegeben:

February 23, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

NVIDIA hat DreamDojo vorgestellt, ein Open-Source-Weltmodell für Robotik, das Roboter anhand von über 44.000 Stunden menschlicher Videodaten trainiert.
Das Modell lernt physikalische Gesetzmäßigkeiten und Interaktionen aus egocentrischen menschlichen Videos, um das Datendilemma in der Robotik zu umgehen.
DreamDojo verwendet "latente Aktionen", um die Informationen aus menschlichen Videos für Roboter nutzbar zu machen, unabhängig von der spezifischen Hardware.
Eine Destillationspipeline ermöglicht eine Echtzeit-Interaktion von 10 Bildern pro Sekunde, was Anwendungen wie Live-Teleoperation und modellbasierte Planung unterstützt.
Die Open-Source-Veröffentlichung von DreamDojo soll die Entwicklung von vielseitigen Robotern beschleunigen, die in der Lage sind, komplexe Aufgaben in dynamischen Umgebungen zu bewältigen.

Die Weiterentwicklung der Robotik steht vor der Herausforderung, Roboter in die Lage zu versetzen, komplexe Aufgaben in unstrukturierten und dynamischen Umgebungen auszuführen. Ein wesentlicher Engpass dabei ist die Verfügbarkeit von ausreichend hochwertigen Trainingsdaten. NVIDIA hat mit der Einführung von DreamDojo, einem Open-Source-Weltmodell, einen bedeutenden Schritt zur Überwindung dieser Hürde unternommen. Dieses Modell wurde darauf ausgelegt, Robotern das Verständnis der physischen Welt durch die Analyse umfangreicher menschlicher Videodaten zu vermitteln.

DreamDojo: Ein Paradigmenwechsel im Robotertraining

Die traditionelle Roboterausbildung erfordert oft das manuelle Codieren von Physikmodellen und die Erstellung präziser 3D-Modelle für Simulationen. Dieser Ansatz ist zeitaufwendig, kostspielig und skaliert schlecht auf die Vielfalt realer Umgebungen. DreamDojo verfolgt einen anderen Weg, indem es die Ergebnisse von Roboteraktionen direkt in Pixeln "träumen" lässt, ohne auf eine physikalische Engine oder vordefinierte 3D-Modelle angewiesen zu sein. Jim Fan, Director of AI und Distinguished Scientist bei NVIDIA, bezeichnet dies als "Simulation 2.0".

Lernen aus menschlicher Erfahrung: Der DreamDojo-HV Datensatz

Der Kern von DreamDojo ist der Datensatz DreamDojo-HV (Human Videos), der über 44.000 Stunden egocentrischer menschlicher Videos umfasst. Dieser Datensatz ist der bisher größte seiner Art für das Vortraining von Weltmodellen und übertrifft frühere Datensätze in Umfang und Vielfalt erheblich. Er beinhaltet mehr als 6.000 einzigartige Aufgaben, über eine Million Trajektorien und deckt fast 10.000 verschiedene Szenen sowie über 43.000 Objekte ab. Durch das Lernen aus diesen Videos erwerben Roboter ein "gesundes Verständnis" darüber, wie die Welt funktioniert, ähnlich dem menschlichen Lernen durch Beobachtung.

Die Verwendung menschlicher Videos adressiert ein zentrales Problem: Die Sammlung roboterspezifischer Daten ist teuer und langsam. Menschen hingegen meistern komplexe physikalische Interaktionen wie das Eingießen von Flüssigkeiten oder das Falten von Kleidung intuitiv. DreamDojo nutzt diese menschliche "Common Sense"-Physik, um Roboterfähigkeiten zu erweitern.

Überbrückung der Datenlücke mit latenten Aktionen

Menschliche Videos enthalten keine direkten Roboterbefehle. Um diese Videos für Roboter "lesbar" zu machen, hat das NVIDIA-Forschungsteam kontinuierliche latente Aktionen eingeführt. Dieses System verwendet einen spatiotemporalen Transformer VAE, um Aktionen direkt aus Pixeln zu extrahieren. Ein 32-dimensionaler latenter Vektor, der aus zwei aufeinanderfolgenden Frames gewonnen wird, repräsentiert die kritischsten Bewegungen zwischen den Frames. Dieses Design schafft einen Informationsengpass, der Aktion und visuellen Kontext entkoppelt, wodurch das Modell physikalische Gesetzmäßigkeiten von Menschen lernen und auf verschiedene Roboterkörper anwenden kann.

Architektur und Optimierung für verbesserte Physik

DreamDojo basiert auf dem Cosmos-Predict2.5 latenten Video-Diffusionsmodell und nutzt den WAN2.2 Tokenizer. Die Architektur wurde durch drei Schlüsselmerkmale verbessert:

Relative Aktionen: Das Modell verwendet Gelenk-Deltas anstelle von absoluten Posen, was die Generalisierung über verschiedene Trajektorien hinweg erleichtert.
Chunked Action Injection: Vier aufeinanderfolgende Aktionen werden in jeden latenten Frame injiziert, um die Aktionen mit dem Kompressionsverhältnis des Tokenizers abzugleichen und Kausalitätsverwechslungen zu beheben.
Temporal Consistency Loss: Eine neue Verlustfunktion gleicht vorhergesagte Frame-Geschwindigkeiten mit Ground-Truth-Übergängen ab, um visuelle Artefakte zu reduzieren und die physikalische Konsistenz von Objekten zu gewährleisten.

Echtzeit-Interaktion durch Destillation

Ein Simulator ist nur dann nützlich, wenn er schnell genug ist. Standard-Diffusionsmodelle erfordern zu viele Denoising-Schritte für den Echtzeitgebrauch. NVIDIA hat dieses Problem durch eine Self-Forcing-Destillationspipeline gelöst. Das "Studenten"-Modell reduziert die Denoising-Schritte von 35 auf 4, wodurch eine Echtzeitgeschwindigkeit von 10,81 Bildern pro Sekunde erreicht wird. Dies ermöglicht stabile, kontinuierliche Rollouts von bis zu 60 Sekunden (600 Frames).

Anwendungsmöglichkeiten von DreamDojo

Die Geschwindigkeit und Genauigkeit von DreamDojo eröffnen Ingenieuren mehrere fortschrittliche Anwendungsmöglichkeiten:

1. Zuverlässige Politikbewertung

Das Testen von Robotern in der realen Welt ist riskant. DreamDojo fungiert als hochfideliger Simulator für Benchmarking. Die simulierten Erfolgsraten zeigen eine Pearson-Korrelation von 0,995 mit realen Ergebnissen, was eine zuverlässige Bewertung von Roboterstrategien ohne physischen Einsatz ermöglicht.

2. Modellbasierte Planung

Roboter können DreamDojo nutzen, um "vorauszuplanen". Ein Roboter kann mehrere Aktionssequenzen simulieren und die beste auswählen. Bei einer Fruchtverpackungsaufgabe verbesserte dies die realen Erfolgsraten um 17 % und führte zu einer Verdoppelung der Erfolgsquote im Vergleich zu zufälliger Stichprobenentnahme.

3. Live-Teleoperation

Entwickler können virtuelle Roboter in Echtzeit teleoperieren. Dies wurde mit einem PICO VR-Controller und einem lokalen Desktop mit einer NVIDIA RTX 5090 demonstriert, was eine sichere und schnelle Datenerfassung ermöglicht.

Offenheit als Beschleuniger für die Forschung

NVIDIA hat alle Gewichte, Trainingscodes und Bewertungs-Benchmarks von DreamDojo als Open Source veröffentlicht. Dies ermöglicht es der Forschungsgemeinschaft und Unternehmen, DreamDojo auf eigenen Roboterdiensten nachzutrainieren und weiterzuentwickeln. Die Modelle sind in zwei Varianten verfügbar: ein 2B-Modell und ein 14B-Modell, die beide auf NVIDIA H100 GPUs vortrainiert wurden.

Fazit

DreamDojo stellt einen bedeutenden Fortschritt in der Robotik dar, indem es das "Datendilemma" durch die Nutzung riesiger Mengen menschlicher Videodaten löst. Die Fähigkeit des Modells, physikalische Gesetzmäßigkeiten und Interaktionen aus solchen Daten zu lernen und diese in Echtzeit-Simulationen umzusetzen, hat das Potenzial, die Entwicklung von vielseitigen und anpassungsfähigen Robotern erheblich zu beschleunigen. Durch die Open-Source-Bereitstellung wird die Innovation in diesem Bereich weiter vorangetrieben, was den Weg für zukünftige Generationen von Robotersystemen ebnet, die in der Lage sind, komplexe Aufgaben in der realen Welt zu bewältigen.