Fortschritte in der objektzentrierten Weltmodellierung durch das Latent Particle World Model

Kategorien:

No items found.

Freigegeben:

March 8, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Der schnelle Überblick:

Das Latent Particle World Model (LPWM) ist ein selbstüberwachtes, objektzentriertes Weltmodell.
Es lernt Schlüsselpunkte, Begrenzungsrahmen und Objektmasken direkt aus Videodaten ohne manuelle Annotation.
Die Architektur wird vollständig end-to-end aus Videos trainiert und unterstützt flexible Konditionierung durch Aktionen, Sprache und Bildziele.
LPWM modelliert stochastische Partikeldynamiken mittels eines neuartigen latenten Aktionsmoduls.
Das Modell zeigt überlegene Leistungen bei der Video-Vorhersage und -Generierung auf realen und synthetischen Datensätzen.
LPWM ist direkt für Entscheidungsfindungsaufgaben anwendbar, einschliesslich zielgerichteten Imitationslernens.
Ein zentrales Element ist das Kontextmodul, das partikelweise latente Aktionen generiert und eine Trennung von stochastischen Aspekten und Dynamikvorhersage ermöglicht.
Die Implementierung nutzt eine verbesserte Version von Deep Latent Particles (DLPv3) und Transformer-Architekturen.

LPWM: Ein Meilenstein in der selbstüberwachten, objektzentrierten Weltmodellierung

Die Entwicklung von Weltmodellen, die in der Lage sind, komplexe Szenendynamiken zu verstehen und vorherzusagen, stellt einen zentralen Forschungsbereich in der Künstlichen Intelligenz dar. Insbesondere die Fähigkeit, Objekte in einer Szene zu identifizieren, ihre Interaktionen zu modellieren und zukünftige Zustände vorherzusagen, ist für Anwendungen in der Robotik, autonomen Systemen und der Entscheidungsfindung von grosser Bedeutung. Eine aktuelle Veröffentlichung stellt hierbei einen bemerkenswerten Fortschritt dar: das Latent Particle World Model (LPWM).

Das LPWM, entwickelt von einem Team um Tal Daniel und Carl Qi, ist ein selbstüberwachtes, objektzentriertes Weltmodell, das darauf abzielt, die Grenzen bestehender Ansätze zu überwinden. Es zeichnet sich durch die Fähigkeit aus, Schlüsselpunkte, Begrenzungsrahmen und Objektmasken direkt aus Videodaten zu entdecken, wodurch eine reichhaltige Szenenzerlegung ohne manuelle Aufsicht ermöglicht wird. Diese end-to-end trainierte Architektur kann flexibel durch Aktionen, Sprache und Bildziele konditioniert werden und modelliert stochastische Partikeldynamiken durch ein neuartiges latentes Aktionsmodul.

Die Herausforderung der Weltmodellierung

Traditionelle Videogenerierungsmodelle haben in den letzten Jahren beeindruckende Fortschritte in der visuellen Qualität erzielt. Diese Modelle, oft basierend auf skalierbaren Architekturen wie Transformatoren, erreichen einen hohen Grad an Realismus. Jedoch gehen diese Erfolge oft mit erheblichen Rechenkosten einher, und ihre Abhängigkeit von Diffusionsprozessen kann die Inferenz langsam und ressourcenintensiv machen. Ein weiteres Defizit vieler dieser Modelle ist die holistische Modellierung von Szenen, bei der die Szene als Ganzes und nicht als Sammlung interagierender Objekte betrachtet wird. Dies führt oft zu unscharfen Vorhersagen oder dem Verschwinden von Objekten bei längeren Rollouts.

Objektzentrierte Ansätze hingegen zielen darauf ab, Szenen in diskrete, persistente Entitäten zu zerlegen und deren individuelle Dynamiken und Interaktionen zu modellieren. Dies steht im Einklang mit der menschlichen Wahrnehmung, die die Welt ebenfalls in Form von Objekten und deren Beziehungen interpretiert. Bisherige objektzentrierte Modelle waren jedoch oft auf spezifische Datensätze oder Umgebungen beschränkt, wie zum Beispiel simulierte Szenen oder einfache reale Umgebungen mit isolierten Objekten. Die Skalierung dieser Modelle auf die Komplexität realer Multi-Objekt-Umgebungen stellte eine erhebliche Herausforderung dar.

LPWM: Eine innovative Architektur

Das LPWM adressiert diese Herausforderungen durch eine Kombination aus verbessertem objektzentriertem Lernen und einer neuen Art der Dynamikmodellierung. Die Architektur besteht aus vier Hauptkomponenten, die als Variational Autoencoder (VAE) end-to-end trainiert werden:

Encoder (ℰϕ): Wandelt Eingabebilder in Sätze von latenten Partikeln um, einschliesslich Vordergrund- und Hintergrundpartikeln. Eine Weiterentwicklung namens DLPv3 ermöglicht hierbei eine verbesserte Stabilität und Leistung im Vergleich zu früheren Versionen von Deep Latent Particles (DLP). Im Gegensatz zu früheren Ansätzen, die Partikel verfolgten und eine sequentielle Kodierung erforderten, ermöglicht LPWM die parallele Kodierung aller Frames, indem die Filterung von Partikeln in den Decoder verlagert wird, wodurch die Identität der Partikel für nachfolgende Dynamikmodellierung erhalten bleibt.
Decoder (𝒟θ): Rekonstruiert Bilder aus den latenten Partikeln. Jedes Partikel wird unabhängig in ein RGBA-Glimpse dekodiert, dessen Position und Skalierung durch räumliche Attribute bestimmt werden. Transparenz und Tiefe lösen Sichtbarkeit und Verdeckungen auf.
Context Modul (𝒦ψ): Dies ist eine der Schlüsselneuerungen des LPWM. Im Gegensatz zu früheren Ansätzen, die globale latente Aktionen für die gesamte Szene lernten, modelliert das Kontextmodul eine latente Aktion pro Partikel. Dies ermöglicht die Darstellung mehrerer gleichzeitiger Interaktionen und unterstützt die stochastische Abtastung latenter Aktionen zur Inferenzzeit. Das Modul ist als kausaler raum-zeitlicher Transformer implementiert und verfügt über zwei Köpfe: einen für die inverse Dynamik (Ableitung latenter Aktionen aus beobachteten Übergängen) und einen für die latente Politik (Modellierung der Verteilung latenter Aktionen basierend auf dem aktuellen Zustand).
Dynamics Modul (ℱξ): Implementiert den autoregressiven Dynamik-Prior des VAE. Es sagt die Partikel im nächsten Zeitschritt voraus, basierend auf den aktuellen Partikeln und ihren entsprechenden latenten Aktionen, die vom Kontextmodul bereitgestellt werden. Auch dieses Modul ist als kausaler raum-zeitlicher Transformer realisiert.

Ein wesentlicher Unterschied zu früheren DLP-Iterationen ist, dass LPWM nicht auf die Verfolgung einer Teilmenge von Partikeln über die Zeit hinweg angewiesen ist. Stattdessen behält es den gesamten Satz von kodierten Partikeln bei, zusammen mit ihren Identitäten. Dies führt zu einem Partikelgitter-Regime, bei dem jedes Partikel sich nur innerhalb einer lokalen Region um sein ursprüngliches Patch-Zentrum bewegen kann.

Leistung und Anwendungsbereiche

Die Forschungsergebnisse demonstrieren, dass LPWM auf verschiedenen realen und synthetischen Datensätzen, einschliesslich OBJD3D, PHYRE, Mario, Sketchy, BAIR, Bridge und LanguageTable, eine überlegene Leistung bei der selbstüberwachten objektzentrierten Video-Vorhersage und -Generierung erzielt. Es übertrifft alle Baselines in Bezug auf LPIPS- und FVD-Metriken über stochastische dynamische Datensätze unter verschiedenen Konditionierungseinstellungen (unbedingt, aktions-konditioniert und sprach-konditioniert).

Ein besonders hervorzuhebendes Merkmal ist die Fähigkeit von LPWM, die Objektpermanenz über den gesamten Generierungshorizont hinweg effektiv zu erhalten und komplexe Objektinteraktionen zu modellieren, im Gegensatz zu konkurrierenden Methoden, die oft unter Objektunschärfe oder -verformung leiden. Zudem unterstützt LPWM die multimodale Abtastung, wodurch aus identischen Anfangsbedingungen vielfältige plausible Rollouts erzeugt werden können.

Über die reine Videomodellierung hinaus ist LPWM direkt auf Entscheidungsfindungsaufgaben anwendbar. Die Autoren demonstrieren dies am Beispiel des zielgerichteten Imitationslernens auf komplexen Multi-Objekt-Umgebungen wie PandaPush und OGBench-Scene. Durch die Vortrainierung von LPWM auf aktionslosen Videodatensätzen können die latenten Aktionen so interpretiert werden, dass sie umsetzbare Informationen enthalten. Ein einfaches Mapping von latenten Aktionen zu echten Aktionen ermöglicht dann die Ableitung einer Politik. Selbst mit einer relativ einfachen Politik erzielt LPWM auf diesen Aufgaben wettbewerbsfähige Erfolgsraten, was das Potenzial für die Entscheidungsfindung unterstreicht.

Vorteile von objektzentrierten Darstellungen

Die Studie hebt die Vorteile objektzentrierter Darstellungen gegenüber der reinen Skalierung von Modellgrössen hervor. Selbst ein relativ kleines LPWM-Modell (mit etwa 100 Millionen Parametern) erreicht auf dem BAIR-64-Datensatz eine vergleichbare FVD-Leistung wie viele deutlich grössere Videogenerierungsmodelle. Dies deutet darauf hin, dass die induktiven Verzerrungen, die durch objektzentrierte Darstellungen kodiert werden, einen signifikanten Vorteil bei der Modellierung von Objektinteraktionen bieten, der allein durch Skalierung nur schwer zu erreichen ist.

Einschränkungen und zukünftige Richtungen

Trotz der beeindruckenden Fortschritte weist LPWM derzeit noch Einschränkungen auf. Es ist primär für Datensätze mit geringer Kamerabewegung und wiederkehrenden Szenarien konzipiert, wie sie typischerweise in der Robotik oder bei Videospielen vorkommen. Die Anwendbarkeit auf allgemeine, grossflächige Videodaten ist noch nicht vollständig gegeben. Zukünftige Arbeiten könnten die Skalierung auf diversere Datensätze, eine vereinheitlichte multimodale Konditionierung (z.B. gleichzeitige Aktions-, Sprach- und Bildsignale) und die Integration mit expliziter Belohnungsmodellierung für das Reinforcement Learning umfassen.

Zusammenfassend stellt das Latent Particle World Model einen bedeutenden Schritt in der Entwicklung von KI-Systemen dar, die in der Lage sind, die physikalische Welt auf eine Weise zu verstehen und zu interagieren, die der menschlichen Kognition näherkommt. Die Fähigkeit, ohne explizite Überwachung detaillierte Objektinformationen zu extrahieren und stochastische Dynamiken zu modellieren, eröffnet neue Möglichkeiten für eine Vielzahl von Anwendungen im B2B-Bereich, insbesondere in der Robotik, der Automatisierung und der Entwicklung intelligenter Systeme.

Bibliographie

Daniel, T., Qi, C., Haramati, D., Zadeh, A., Li, C., Tamar, A., Pathak, D., & Held, D. (2026). Latent Particle World Models: Self-supervised Object-centric Stochastic Dynamics Modeling. *The Fourteenth International Conference on Learning Representations (ICLR 2026)*.
Daniel, T., & Tamar, A. (2022a). Unsupervised image representation learning with deep latent particles. *Proceedings of the 39th International Conference on Machine Learning*, 162, 4644–4665.
Daniel, T., & Tamar, A. (2024). DDLP: unsupervised object-centric video prediction with deep dynamic latent particles. *Transactions on Machine Learning Research*.
Qi, C., Haramati, D., Daniel, T., Tamar, A., & Zhang, A. (2025). EC-diffuser: Multi-object manipulation via entity-centric behavior generation. *The Thirteenth International Conference on Learning Representations*.
Projekt-Webseite: https://taldatech.github.io/lpwm-web/
GitHub Repository: https://github.com/taldatech/lpwm