Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Weiterentwicklung der Robotik steht vor der Herausforderung, Roboter in die Lage zu versetzen, komplexe Aufgaben in unstrukturierten und dynamischen Umgebungen auszuführen. Ein wesentlicher Engpass dabei ist die Verfügbarkeit von ausreichend hochwertigen Trainingsdaten. NVIDIA hat mit der Einführung von DreamDojo, einem Open-Source-Weltmodell, einen bedeutenden Schritt zur Überwindung dieser Hürde unternommen. Dieses Modell wurde darauf ausgelegt, Robotern das Verständnis der physischen Welt durch die Analyse umfangreicher menschlicher Videodaten zu vermitteln.
Die traditionelle Roboterausbildung erfordert oft das manuelle Codieren von Physikmodellen und die Erstellung präziser 3D-Modelle für Simulationen. Dieser Ansatz ist zeitaufwendig, kostspielig und skaliert schlecht auf die Vielfalt realer Umgebungen. DreamDojo verfolgt einen anderen Weg, indem es die Ergebnisse von Roboteraktionen direkt in Pixeln "träumen" lässt, ohne auf eine physikalische Engine oder vordefinierte 3D-Modelle angewiesen zu sein. Jim Fan, Director of AI und Distinguished Scientist bei NVIDIA, bezeichnet dies als "Simulation 2.0".
Der Kern von DreamDojo ist der Datensatz DreamDojo-HV (Human Videos), der über 44.000 Stunden egocentrischer menschlicher Videos umfasst. Dieser Datensatz ist der bisher größte seiner Art für das Vortraining von Weltmodellen und übertrifft frühere Datensätze in Umfang und Vielfalt erheblich. Er beinhaltet mehr als 6.000 einzigartige Aufgaben, über eine Million Trajektorien und deckt fast 10.000 verschiedene Szenen sowie über 43.000 Objekte ab. Durch das Lernen aus diesen Videos erwerben Roboter ein "gesundes Verständnis" darüber, wie die Welt funktioniert, ähnlich dem menschlichen Lernen durch Beobachtung.
Die Verwendung menschlicher Videos adressiert ein zentrales Problem: Die Sammlung roboterspezifischer Daten ist teuer und langsam. Menschen hingegen meistern komplexe physikalische Interaktionen wie das Eingießen von Flüssigkeiten oder das Falten von Kleidung intuitiv. DreamDojo nutzt diese menschliche "Common Sense"-Physik, um Roboterfähigkeiten zu erweitern.
Menschliche Videos enthalten keine direkten Roboterbefehle. Um diese Videos für Roboter "lesbar" zu machen, hat das NVIDIA-Forschungsteam kontinuierliche latente Aktionen eingeführt. Dieses System verwendet einen spatiotemporalen Transformer VAE, um Aktionen direkt aus Pixeln zu extrahieren. Ein 32-dimensionaler latenter Vektor, der aus zwei aufeinanderfolgenden Frames gewonnen wird, repräsentiert die kritischsten Bewegungen zwischen den Frames. Dieses Design schafft einen Informationsengpass, der Aktion und visuellen Kontext entkoppelt, wodurch das Modell physikalische Gesetzmäßigkeiten von Menschen lernen und auf verschiedene Roboterkörper anwenden kann.
DreamDojo basiert auf dem Cosmos-Predict2.5 latenten Video-Diffusionsmodell und nutzt den WAN2.2 Tokenizer. Die Architektur wurde durch drei Schlüsselmerkmale verbessert:
Ein Simulator ist nur dann nützlich, wenn er schnell genug ist. Standard-Diffusionsmodelle erfordern zu viele Denoising-Schritte für den Echtzeitgebrauch. NVIDIA hat dieses Problem durch eine Self-Forcing-Destillationspipeline gelöst. Das "Studenten"-Modell reduziert die Denoising-Schritte von 35 auf 4, wodurch eine Echtzeitgeschwindigkeit von 10,81 Bildern pro Sekunde erreicht wird. Dies ermöglicht stabile, kontinuierliche Rollouts von bis zu 60 Sekunden (600 Frames).
Die Geschwindigkeit und Genauigkeit von DreamDojo eröffnen Ingenieuren mehrere fortschrittliche Anwendungsmöglichkeiten:
Das Testen von Robotern in der realen Welt ist riskant. DreamDojo fungiert als hochfideliger Simulator für Benchmarking. Die simulierten Erfolgsraten zeigen eine Pearson-Korrelation von 0,995 mit realen Ergebnissen, was eine zuverlässige Bewertung von Roboterstrategien ohne physischen Einsatz ermöglicht.
Roboter können DreamDojo nutzen, um "vorauszuplanen". Ein Roboter kann mehrere Aktionssequenzen simulieren und die beste auswählen. Bei einer Fruchtverpackungsaufgabe verbesserte dies die realen Erfolgsraten um 17 % und führte zu einer Verdoppelung der Erfolgsquote im Vergleich zu zufälliger Stichprobenentnahme.
Entwickler können virtuelle Roboter in Echtzeit teleoperieren. Dies wurde mit einem PICO VR-Controller und einem lokalen Desktop mit einer NVIDIA RTX 5090 demonstriert, was eine sichere und schnelle Datenerfassung ermöglicht.
NVIDIA hat alle Gewichte, Trainingscodes und Bewertungs-Benchmarks von DreamDojo als Open Source veröffentlicht. Dies ermöglicht es der Forschungsgemeinschaft und Unternehmen, DreamDojo auf eigenen Roboterdiensten nachzutrainieren und weiterzuentwickeln. Die Modelle sind in zwei Varianten verfügbar: ein 2B-Modell und ein 14B-Modell, die beide auf NVIDIA H100 GPUs vortrainiert wurden.
DreamDojo stellt einen bedeutenden Fortschritt in der Robotik dar, indem es das "Datendilemma" durch die Nutzung riesiger Mengen menschlicher Videodaten löst. Die Fähigkeit des Modells, physikalische Gesetzmäßigkeiten und Interaktionen aus solchen Daten zu lernen und diese in Echtzeit-Simulationen umzusetzen, hat das Potenzial, die Entwicklung von vielseitigen und anpassungsfähigen Robotern erheblich zu beschleunigen. Durch die Open-Source-Bereitstellung wird die Innovation in diesem Bereich weiter vorangetrieben, was den Weg für zukünftige Generationen von Robotersystemen ebnet, die in der Lage sind, komplexe Aufgaben in der realen Welt zu bewältigen.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen