NeoVerse: Fortschritte in der 4D-Weltmodellierung durch monokulare Videos

Kategorien:

No items found.

Freigegeben:

January 5, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

NeoVerse ist ein vielseitiges 4D-Weltmodell, das die Rekonstruktion von Szenen und die Generierung von Videos aus monokularen Aufnahmen ermöglicht.
Das Modell überwindet Skalierbarkeitsprobleme herkömmlicher Methoden, indem es auf in freier Wildbahn aufgenommenen monokularen Videos trainiert wird.
NeoVerse nutzt eine pose-freie, Feed-Forward 4D-Rekonstruktion und eine innovative Degradationssimulation.
Es erreicht modernste Ergebnisse in Rekonstruktions- und Generierungsaufgaben und bietet vielfältige Anwendungsmöglichkeiten wie 3D-Tracking, Videobearbeitung und Super-Resolution.
Die Effizienz des Modells wird durch eine intelligente Verarbeitung von Schlüsselbildern und bidirektionale Bewegungsmodellierung verbessert.

Einführung in NeoVerse: Eine neue Ära der 4D-Weltmodellierung

Die Modellierung von 4D-Welten, also von dynamischen 3D-Szenen über die Zeit, birgt ein transformatives Potenzial für eine Vielzahl von Anwendungsbereichen. Von der digitalen Inhaltserstellung über autonomes Fahren bis hin zu verkörperter Intelligenz sind die Fortschritte in diesem Feld von grosser Bedeutung. Aktuelle Ansätze verfolgen häufig ein hybrides Prinzip aus Rekonstruktion und Generierung. Dabei wird zunächst eine 3D- oder 4D-Repräsentation einer Szene erstellt, die dann als geometrische Grundlage für generative Modelle dient. Dieser Ansatz ermöglicht eine hohe räumlich-zeitliche Konsistenz und präzise Kamerasteuerung.

Jedoch sind bestehende Lösungen oft mit Skalierbarkeitsbeschränkungen konfrontiert. Diese äussern sich primär in zwei Aspekten: Der begrenzte Zugriff auf geeignete Daten und die aufwendige Vorverarbeitung für das Training. Viele Methoden erfordern teure, spezialisierte Multi-View-4D-Daten oder umfangreiche Offline-Verarbeitungsschritte, um Trainingsdaten zu erzeugen. Dies limitiert die Verallgemeinerungsfähigkeit und Vielseitigkeit der Modelle erheblich.

Ein Team von Forschenden hat mit NeoVerse ein 4D-Weltmodell vorgestellt, das diese Herausforderungen adressiert. Die Kernphilosophie von NeoVerse ist es, die gesamte Pipeline auf eine breite Palette von monokularen Videos, die "in freier Wildbahn" aufgenommen wurden, skalierbar zu machen. Dadurch soll die Verallgemeinerungsfähigkeit und Vielseitigkeit von 4D-Weltmodellen signifikant verbessert werden.

Die technische Architektur von NeoVerse

NeoVerse basiert auf einer innovativen Architektur, die eine effiziente 4D-Rekonstruktion und eine geführte Videogenerierung integriert. Im Folgenden werden die Schlüsselkomponenten und deren Funktionsweise detailliert erläutert.

Pose-freie Feed-Forward 4D-Rekonstruktion

Ein zentraler Bestandteil von NeoVerse ist ein pose-freies Feed-Forward 4D Gaussian Splatting (4DGS)-Modell. Dieses Modell baut auf dem VGGT-Framework auf und wurde speziell für dynamische Szenen weiterentwickelt. Es ist in der Lage, 4DGS-Repräsentationen direkt aus monokularen Videos zu rekonstruieren.

Bidirektionale Bewegungsmodellierung

Die Bewegungsmodellierung in NeoVerse unterscheidet sich von früheren uni-direktionalen Ansätzen. Bei einem monokularen Video extrahiert das Modell zunächst frame-weise Merkmale. Um die zeitliche Dynamik zu erfassen, wird ein bidirektionaler Bewegungs-Encoding-Zweig eingeführt. Dieser Zweig ermöglicht die Vorhersage der momentanen Geschwindigkeit zwischen aufeinanderfolgenden Zeitstempeln in beide Richtungen (vorwärts und rückwärts). Diese bidirektionale Vorhersage ist entscheidend für eine präzise zeitliche Interpolation von Gaussschen Primitiven.

Gaussianisierung von VGGT

Die 4D-Gaussschen Primitiven in NeoVerse werden durch eine Reihe von Parametern definiert: 3D-Position, Opazität, Rotation, Skalierung und sphärische Harmonische Koeffizienten. Neu hinzugekommen sind vorwärts- und rückwärtsgerichtete lineare und Winkelgeschwindigkeiten sowie eine Lebensdauer. Die 3D-Positionen werden durch Rückprojektion der Pixeltiefe in den 3D-Raum unter Verwendung der vorhergesagten Tiefe und Kameraparameter ermittelt. Die dynamischen Attribute, insbesondere die Geschwindigkeiten, werden aus den bidirektionalen Bewegungsmerkmalen abgeleitet.

Rekonstruktionsgeführte Videogenerierung

Die Kombination von Rekonstruktion und Generierung erfolgt in einer skalierbaren Trainingspipeline.

Effiziente On-the-fly-Rekonstruktion aus spärlichen Schlüsselbildern

Um die Trainingseffizienz zu steigern, führt NeoVerse eine Rekonstruktion aus spärlichen Schlüsselbildern ein. Anstatt jedes einzelne Frame eines langen Videos zu verarbeiten, werden nur wenige Schlüsselbilder für die 4DGS-Rekonstruktion verwendet. Das Rendering erfolgt jedoch für alle Frames. Die bidirektionale Bewegungsmodellierung ermöglicht es, die Gaussschen Felder für Nicht-Schlüsselbilder präzise zu interpolieren. Dabei wird die Position, Rotation und Opazität der Gaussschen Primitive basierend auf den vorhergesagten Geschwindigkeiten und einer zeitlich variierenden Opazitätsfunktion angepasst.

Monokulare Degradationssimulation

Ein weiterer innovativer Aspekt ist die monokulare Degradationssimulation. Da das Generierungsmodell qualitativ hochwertige neue Ansichten aus potenziell minderwertigen Renderings erzeugen soll, sind entsprechende Trainingspaare erforderlich. Bei Multi-View- oder statischen Datensätzen ist dies relativ einfach. Für monokulare Videos in freier Wildbahn sind jedoch spezielle Techniken zur Simulation von Degradationsmustern notwendig. NeoVerse verwendet hierfür drei Methoden:

Sichtbarkeitsbasiertes Gaussian Culling zur Okklusionssimulation: Das Modell identifiziert Gausssche Primitive, die aus einer transformierten neuen Kameraposition verdeckt wären. Diese unsichtbaren Primitive werden entfernt und die verbleibenden zurück in die ursprünglichen Ansichten gerendert, um Okklusionseffekte zu simulieren.
Durchschnittlicher Geometriefilter für fliegende Kantenpixel und Verzerrungssimulation: Um Artefakte wie fliegende Pixel an Tiefendiskontinuitäten zu simulieren, wendet das Modell einen Durchschnittsfilter auf die gerenderte Tiefe an. Dies führt zu einer Anpassung der Gaussschen Zentren und erzeugt beim Zurückrendern in die Originalansichten das gewünschte Degradationsmuster. Eine Vergrösserung des Filterkerns kann breitere räumliche Verzerrungen simulieren.
Diese Degradationssimulationen ermöglichen es dem Modell, Robustheit gegenüber geometrischen Artefakten in den Eingabebedingungen zu entwickeln und realistische Details in verdeckten oder verzerrten Bereichen zu halluzinieren.

Konditionierung durch degradierte Renderings

Die generierten, degradierten Renderings werden als Bedingungen für das Generierungsmodell verwendet, während die Originalvideos als Ziel dienen. Diese Bedingungen umfassen RGB-Bilder, Tiefenkarten und binäre Masken, die aus Opazitätskarten abgeleitet werden, um leere Regionen zu kennzeichnen. Zusätzlich werden Plücker-Einbettungen der ursprünglichen Trajektorie berechnet, um explizite 3D-Kamerabewegungsinformationen bereitzustellen. Ein Kontrollzweig integriert diese Bedingungen in das Generierungsmodell. Während des Trainings wird lediglich der Kontrollzweig trainiert, während das Videogenerierungsmodell eingefroren bleibt. Dies erhöht nicht nur die Trainingseffizienz, sondern ermöglicht auch die Nutzung leistungsstarker Destillations-LoRAs zur Beschleunigung des Generierungsprozesses.

Trainingsschema und Inferenzstrategien

Das Training von NeoVerse ist in zwei Stufen unterteilt: das Training des Rekonstruktionsmodells und das Training des Generierungsmodells.

Rekonstruktionstraining

Das Feed-Forward 4DGS-Rekonstruktionsmodell wird mit einer Multi-Task-Verlustfunktion auf verschiedenen statischen und dynamischen 3D-Datensätzen trainiert. Die Verlustfunktion umfasst photometrische Verluste, Kameraparameter- und Tiefenverluste sowie einen Bewegungsverlust, der die vorhergesagten bidirektionalen Geschwindigkeiten überwacht. Ein Regularisierungsverlust verhindert zudem, dass Gausssche Primitive fälschlicherweise transparent werden.

Generierungstraining

Für das Generierungsmodell wird ein Rectified Flow und Wan-T2V 14B verwendet, um den Entrauschungs-Diffusionsprozess zu modellieren. Das Training erfolgt auf monokularen Videos. Dabei wird die On-the-fly-Rekonstruktion aus spärlichen Schlüsselbildern genutzt, um 4DGS-Repräsentationen zu erhalten und degradierte Renderings als Bedingungen zu simulieren.

Inferenz

Bei der Inferenz liefert das Feed-Forward-Modell 4DGS-Repräsentationen und Kameraparameter für jedes Frame. Für eine vollständigere Darstellung können Gausssche Primitive aus mehreren Zeitstempeln zu einem einzigen Zeitstempel zusammengeführt werden. Hierbei kommt ein globales Bewegungs-Tracking zum Einsatz, um statische und dynamische Objekte zu unterscheiden. Statische Teile werden über alle Frames aggregiert, während dynamische Teile nur aus wenigen benachbarten Frames aggregiert werden, um Bewegungsdrift zu vermeiden. NeoVerse unterstützt auch die Interpolation von Gaussschen Primitiven für Zwischenzeitstempel, was für Anwendungen wie Zeitlupenvideos oder Bullet-Time-Aufnahmen nützlich ist.

Experimentelle Ergebnisse und Analysen

Die Leistungsfähigkeit von NeoVerse wurde durch umfassende quantitative und qualitative Bewertungen demonstriert.

Quantitative Bewertung

NeoVerse erreicht modernste Ergebnisse in Rekonstruktions- und Generierungsbenchmarks. In Vergleichen mit bestehenden statischen und dynamischen Rekonstruktionsmodellen übertrifft NeoVerse diese in Metriken wie PSNR, SSIM und LPIPS. Auch in der Generierungsleistung, gemessen an Subjektiver Konsistenz, Hintergrundkonsistenz, Temporärem Flackern, Bewegungssmoothness, Ästhetischer Qualität und Bildqualität, zeigt NeoVerse überlegene Ergebnisse gegenüber Konkurrenzmethoden wie TrajectoryCrafter und ReCamMaster.

Besonders hervorzuheben ist die Laufzeiteffizienz. Durch die gezielte Gestaltung der Bedingungsinjektion und die bidirektionale Bewegungsmodellierung kann NeoVerse eine deutlich schnellere Inferenzgeschwindigkeit erreichen, insbesondere bei der Rekonstruktion aus spärlichen Schlüsselbildern, ohne die Generierungsleistung zu beeinträchtigen.

Qualitative Bewertung und Analyse

Renderingqualität

Qualitative Vergleiche zeigen, dass NeoVerse nicht nur eine bessere visuelle Qualität erzielt, sondern auch treuer zu den Eingabebeobachtungen ist. Andere Methoden neigen dazu, unnatürliche Artefakte oder inkonsistente Renderings zu erzeugen.

Genauigkeit der Posenvorhersage

Das Modell weist auch eine höhere Genauigkeit bei der Posenvorhersage auf, was sich in einer besseren Konsistenz des Sichtfeldes mit der Ground Truth zeigt.

Kontrollierbarkeit der Trajektorie vs. Generierungsqualität

Ein interessantes Phänomen ist der Trade-off zwischen Generierungsqualität und Trajektorienkontrollierbarkeit in verwandten Arbeiten. Während rekonstruktions-generierungs-hybride Methoden wie TrajectoryCrafter gute Trajektorienkontrolle bieten, ist ihre Generierungsqualität oft geringer, insbesondere bei komplexen Szenarien. Rein generierungsbasierte Methoden wie ReCamMaster erreichen zwar eine gute visuelle Generierungsqualität, mangeln jedoch an präziser Trajektorienkontrolle. NeoVerse hingegen balanciert diese Aspekte aus und bietet präzise Kamerakontrollierbarkeit und hohe Generierungsqualität, was auf die Skalierbarkeit zu diversen "in freier Wildbahn" aufgenommenen Videos zurückzuführen ist.

Artefaktunterdrückung

Die Degradationssimulationen von NeoVerse tragen massgeblich zur Unterdrückung von Artefakten bei. Ohne diese Simulationen neigt das Generierungsmodell dazu, geometrische Artefakte in den Bedingungen zu übernehmen, was zu "Ghosting"-Effekten oder unscharfen Ausgaben führt. Durch die Berücksichtigung von Okklusionen, fliegenden Kantenpixeln und Verzerrungen lernt das Modell, diese Artefakte zu unterdrücken und realistische Details in verdeckten oder verzerrten Regionen zu halluzinieren.

Kontextuell fundierte Imagination

NeoVerse demonstriert auch die Fähigkeit zur kontextuell fundierten Imagination für nicht beobachtete Regionen, was auf seine Skalierbarkeit zu einer breiten Palette von Videos zurückzuführen ist.

Ablationsstudien

Ablationsstudien bestätigen die Wirksamkeit der einzelnen Komponenten von NeoVerse:

Bewegungsmodellierung: Das Entfernen des bidirektionalen Bewegungsmodellierungsmechanismus führt zu einem Leistungsabfall, was die Effektivität des Ansatzes unterstreicht.
Opazitätsregularisierung: Eine Opazitätsregularisierung verhindert, dass das Modell Abkürzungen lernt und transparente Primitive für Regionen mit ähnlichen Farben zum Hintergrund ausgibt.
Degradationssimulation: Die Notwendigkeit der Online-Degradationssimulation wird deutlich, da ohne sie das Generierungsmodell Artefakte übernimmt und die Ausgaben beeinträchtigt.
Globales Bewegungs-Tracking: Das globale Bewegungs-Tracking ist entscheidend für die korrekte Identifizierung dynamischer Instanzen. Ohne diese Funktion werden dynamische Objekte fälschlicherweise als statisch klassifiziert.

Anwendungen von NeoVerse

Eine der Stärken von NeoVerse liegt in der Unterstützung vielfältiger nachgelagerter Anwendungen, die über die Generierung von Videos mit neuen Trajektorien hinausgehen:

3D-Tracking: Durch die Verknüpfung nächster Gaussscher Primitive zwischen aufeinanderfolgenden Frames mittels vorhergesagtem 3D-Fluss ermöglicht NeoVerse ein präzises 3D-Tracking.
Videobearbeitung: Mit binären Masken- und Textbedingungen kann das Modell Videos bearbeiten, beispielsweise die Farbe eines Autos ändern oder Objekte transparent machen, unterstützt durch Videosegmentierungsmodelle.
Videostabilisierung: Durch das Glätten der vorhergesagten Kameratrajektorie kann das Modell Videos effektiv stabilisieren.
Video-Super-Resolution: Die Gausssche Repräsentation in NeoVerse unterstützt flexible Rendering-Auflösungen ohne nennenswerten Verlust von Erscheinungsinformationen, was eine Video-Super-Resolution durch Generierung mit höherer Auflösung ermöglicht.
Weitere Anwendungen: NeoVerse ist auch für die Hintergrundextraktion und die Generierung von "Bild zu Welt"-Szenarien fähig, bei denen aus einem einzelnen Bild eine 3D-Szene rekonstruiert und eine Erkundung ermöglicht wird.

Fazit und Ausblick

NeoVerse repräsentiert einen bedeutenden Fortschritt in der 4D-Weltmodellierung. Durch die Überwindung zentraler Skalierbarkeitsbeschränkungen etablierter Ansätze und die Nutzung vielfältiger monokularer Videos aus der realen Welt, erzielt das Modell eine verbesserte Verallgemeinerungsfähigkeit und Vielseitigkeit. Die erzielten modernsten Ergebnisse in Rekonstruktions- und Generierungsaufgaben sowie die breite Palette an unterstützten Anwendungen unterstreichen das Potenzial von NeoVerse.

Einschränkungen

Trotz der beeindruckenden Fortschritte weist NeoVerse auch Einschränkungen auf. Das Modell benötigt Daten mit korrekten zugrundeliegenden 3D-Informationen, was eine Anwendung auf 2D-Zeichentrickfilme oder ähnliche Inhalte ohne 3D-Geometrie erschwert. Zudem ist der Umfang des aktuell verwendeten Datensatzes, obwohl gross (1 Million Clips), durch Trainingsressourcen begrenzt. Die Weiterentwicklung in diesen Bereichen bietet Potenzial für zukünftige Arbeiten.

Die Veröffentlichung des Quellcodes signalisiert zudem das Bestreben, die Entwicklung allgemeiner 4D-Weltmodelle durch die Nutzung kostengünstiger und vielfältiger monokularer Videos zu dezentralisieren und der Forschungsgemeinschaft zugänglich zu machen.

Bibliography - Yang, Y., Fan, L., Shi, Z., Peng, J., Wang, F., & Zhang, Z. (2026). NeoVerse: Enhancing 4D World Model with in-the-wild Monocular Videos. arXiv preprint arXiv:2601.00393. - HyperAI. (n.d.). NeoVerse: Enhancing 4D World Model with in-the-wild Monocular Videos. Retrieved from https://hyper.ai/en/papers/2601.00393 - Hugging Face. (2026, January 5). Daily Papers. Retrieved from https://huggingface.co/papers/week/2026-W02 - NeoVerse Project Page. (n.d.). Retrieved from https://neoverse-4d.github.io/ - AlphaXiv. (n.d.). generative-models. Retrieved from https://www.alphaxiv.org/?custom-categories=generative-models - Yang, Y. (2025, December 30). NeoVerse: Enhancing 4D World Model with in-the-wild Monocular Videos [Video]. YouTube. https://www.youtube.com/watch?v=1k8Ikf8zbZw