Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Fähigkeit von intelligenten Agenten, übertragbares Wissen aus unmarkierten Videodaten zu erlernen und dieses in neuen Umgebungen anzuwenden, stellt eine fundamentale Herausforderung in der Künstlichen Intelligenz dar. Eine aktuelle Entwicklung auf diesem Gebiet ist "VideoWorld 2", eine Erweiterung des ursprünglichen VideoWorld-Konzepts. Dieses Modell befasst sich als erste Untersuchung damit, übertragbares Wissen direkt aus unbearbeiteten realen Videos zu erlernen.
Im Zentrum von VideoWorld 2 steht das dynamik-verbesserte Latent Dynamics Model (dLDM). Eine Schlüsselkomponente dieses Modells ist die Entkopplung von Handlungsdynamiken und visuellen Erscheinungsbildern. Ein vortrainiertes Video-Diffusionsmodell ist für die Modellierung des visuellen Erscheinungsbilds zuständig. Dies ermöglicht es dem dLDM, latente Codes zu erlernen, die sich auf kompakte und bedeutungsvolle, aufgabenbezogene Dynamiken konzentrieren. Diese latenten Codes werden anschließend autoregressiv modelliert, um Aufgabenstrategien zu erlernen und langfristige Schlussfolgerungen zu unterstützen.
Die Evaluierung von VideoWorld 2 erfolgte an anspruchsvollen realen Handwerksaufgaben, bei denen frühere Videogenerierungs- und Latent-Dynamics-Modelle Schwierigkeiten hatten, zuverlässig zu agieren. Die Ergebnisse zeigen eine bemerkenswerte Verbesserung der Aufgaben-Erfolgsrate von bis zu 70 %. Darüber hinaus ist das System in der Lage, kohärente, lange Ausführungsvideos zu produzieren.
Im Bereich der Robotik demonstriert VideoWorld 2 die Fähigkeit, effektives Manipulationswissen aus dem Open-X-Datensatz zu erwerben. Dies führt zu einer erheblichen Verbesserung der Aufgabenleistung auf der CALVIN-Plattform, was die starke domänenübergreifende Generalisierungsfähigkeit des Modells unterstreicht.
Ein wesentlicher Aspekt von VideoWorld 2 ist seine Fähigkeit, komplexes Wissen ausschließlich durch visuelle Daten zu erfassen, ohne auf Sprachmodelle oder explizite Textbeschreibungen angewiesen zu sein. Dies unterscheidet es von anderen generativen Modellen, die oft auf sprachliche Vorinformationen zurückgreifen. Die Forscher betonen, dass selbst für Aufgaben, die für menschliche Kinder durch das Beobachten von Video-Tutorials leicht zu erlernen sind, herkömmliche KI-Systeme oft versagen, wenn sie auf Textbeschreibungen angewiesen sind.
Die Entwicklung von VideoWorld 2 wird von einigen als ein möglicher "Kambrium-Moment" für die KI betrachtet. Ähnlich wie die vision-gesteuerte Wahrnehmung und Planung vor 540 Millionen Jahren die "Kambrische Explosion" des Lebens auslöste, könnte VideoWorld 2 eine neue Ära des Wissenserwerbs in der KI einleiten. Das Modell kann minütige Handwerksaufgaben wie Papierfalten und Blockbauen, die feinkörnige Manipulation und langfristige Planung erfordern, ohne jegliche textliche Beschreibungen bewältigen. Zudem kann es diese Fähigkeiten über verschiedene ungesehene Szenen hinweg verallgemeinern und Multi-Task-, Cross-Environment-Roboter-Manipulationen durchführen.
Die Hauptbeiträge dieser Forschung umfassen:
Die Studie zu VideoWorld 2 verdeutlicht das Potenzial, übertragbares Weltwissen direkt aus Rohvideos zu erlernen. Alle zugehörigen Codes, Daten und Modelle sollen für die weitere Forschung quelloffen zugänglich gemacht werden. Diese Entwicklung könnte einen wichtigen Schritt in Richtung intelligenter Agenten darstellen, die in der Lage sind, komplexe Aufgaben in der realen Welt auf eine Weise zu verstehen und auszuführen, die der menschlichen Lernweise durch Beobachtung ähnelt.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen