Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Weiterentwicklung der Robotik und der physikalischen KI schreitet mit hoher Geschwindigkeit voran. Ein zentraler Aspekt dieser Entwicklung ist die Fähigkeit von Robotern, ihre Umgebung zu verstehen, zu interpretieren und darauf basierend komplexe Aktionen auszuführen. NVIDIA hat mit der Einführung der "Cosmos Policy" einen neuen Ansatz für die Robotersteuerung vorgestellt, der auf dem Konzept der World Foundation Models (WFMs) aufbaut. Diese Neuerung zielt darauf ab, die Präzision und Effizienz von Robotersystemen durch eine verbesserte Vorhersagefähigkeit und Planungsintelligenz zu steigern.
Im Kern der Robotik steht die "Policy", das entscheidungsfindende System, das Beobachtungen (beispielsweise Kamerabilder oder Sensordaten) in physikalische Aktionen umwandelt. Traditionelle Roboterpolicies wurden oft als aufgabenspezifische neuronale Netze konzipiert, die separate Module für Wahrnehmung, Planung und Steuerung erforderten. Diese Systeme waren häufig auf große Mengen an beschrifteten Daten und eine individuelle Anpassung für jeden Robotertyp oder jede Umgebung angewiesen.
Die Cosmos Policy verfolgt einen anderen Weg. Anstatt ein Steuerungsmodell von Grund auf neu zu entwickeln, adaptiert NVIDIA ein vortrainiertes Videomodell, bekannt als Cosmos Predict. Dieses Modell ist darauf spezialisiert, die Entwicklung von Szenen im Laufe der Zeit zu prognostizieren und temporale Dynamiken zu generieren. Dies ist ein entscheidender Unterschied zu herkömmlichen Vision-Language Models (VLMs), die zwar lernen, Videos zu verstehen und zu beschreiben, jedoch nicht, wie physische Aktionen präzise ausgeführt werden.
Das Besondere an der Cosmos Policy ist die Art und Weise, wie sie Daten repräsentiert. Sie behandelt Roboteraktionen, physikalische Zustände und Erfolgswerte ähnlich wie Frames in einem Video. All diese Informationen werden als zusätzliche latente Frames kodiert, die mit demselben Diffusionsprozess wie die Videogenerierung erlernt werden. Dies ermöglicht es dem Modell, das bereits gelernte Verständnis von Physik, Schwerkraft und der Entwicklung von Szenen im Zeitverlauf zu nutzen.
Ein Schlüsselelement der Cosmos Policy ist die sogenannte "Latent Frame Injection". Diese Methode ermöglicht es, nicht-bildliche Modalitäten wie Roboter-Propriozeption (eigene Körperwahrnehmung des Roboters), Aktionssequenzen und Wertschätzungen direkt in den latenten Diffusionsprozess des Videomodells zu integrieren. Anstatt neue architektonische Komponenten oder separate Aktionsmodule einzuführen, passt die Cosmos Policy das vortrainierte Modell direkt durch eine einmalige Nachschulungsphase mit Roboterdemonstrationsdaten an.
Durch diesen Ansatz kann ein einziges Modell mehrere Funktionen erfüllen:
Alle drei Fähigkeiten werden gemeinsam innerhalb eines vereinheitlichten Modells erlernt. Die Cosmos Policy kann entweder als direkte Policy eingesetzt werden, bei der nur Aktionen generiert werden, oder als Planungs-Policy, bei der mehrere Kandidatenaktionen durch Vorhersage ihrer zukünftigen Zustände und Werte bewertet werden.
Die Leistungsfähigkeit der Cosmos Policy wurde in verschiedenen Szenarien evaluiert, darunter Simulations-Benchmarks und reale Roboter-Manipulationsaufgaben. Die Ergebnisse zeigen eine signifikante Überlegenheit gegenüber bestehenden Methoden:
Die Fähigkeit zur Planung ist ein weiterer entscheidender Vorteil. Wenn die Cosmos Policy durch modellbasierte Planung erweitert wird, bei der mehrere Aktionssequenzen generiert und bewertet werden können, wurde eine um 12,5 % höhere Aufgabenabschlussrate bei anspruchsvollen realen Manipulationsaufgaben beobachtet. Dies ermöglicht Robotern, strategischer und weniger reaktiv auf komplexe Situationen zu reagieren.
Die Cosmos Policy stellt einen wichtigen Schritt dar, um World Foundation Models für die Robotersteuerung und -planung nutzbar zu machen. NVIDIA engagiert sich aktiv in der Weiterentwicklung dieser Forschung und fördert die Zusammenarbeit mit der Robotik-Community.
Um die praktische Anwendung zu unterstützen, stellt NVIDIA den "Cosmos Cookbook" bereit, der Anleitungen und Beispiele für die Implementierung und Nutzung der Cosmos WFMs bietet. Darüber hinaus wird der "Cosmos Cookoff" veranstaltet, ein Hackathon, der Entwickler dazu anregen soll, Anwendungen und Workflows mit den Cosmos-Modellen zu entwickeln.
Die Cosmos Policy ist Teil des breiteren Cosmos-Ökosystems von NVIDIA, das darauf abzielt, allgemeine Weltmodelle für Roboter und autonome Systeme bereitzustellen. Das übergeordnete Ziel ist es, Maschinen eine gemeinsame Infrastruktur zu bieten, die es ihnen ermöglicht, die physikalische Welt zu verstehen, vorherzusagen und in ihr zu agieren, wodurch der Bedarf an aufgabenspezifischer Technik reduziert wird.
Trotz der vielversprechenden Ergebnisse bestehen auch Herausforderungen. Die Inferenzgeschwindigkeit bei modellbasierter Planung kann noch optimiert werden, um die Anwendbarkeit auf dynamischere Aufgaben zu erweitern. Zudem ist die Notwendigkeit umfangreicher Rollout-Daten für eine präzise Planung ein Bereich für zukünftige Forschung, um die Zugänglichkeit des Ansatzes zu erhöhen.
Die Cosmos Policy demonstriert das Potenzial von Videodiffusions-Foundation Models, die Robotik durch eine vereinheitlichte und effiziente Steuerung zu revolutionieren. Durch die Integration von visuellen, aktionalen und wertbasierten Informationen in einem einzigen Modell ebnet NVIDIA den Weg für intelligentere und anpassungsfähigere Robotersysteme.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen