Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Modellierung von 4D-Welten, also von dynamischen 3D-Szenen über die Zeit, birgt ein transformatives Potenzial für eine Vielzahl von Anwendungsbereichen. Von der digitalen Inhaltserstellung über autonomes Fahren bis hin zu verkörperter Intelligenz sind die Fortschritte in diesem Feld von grosser Bedeutung. Aktuelle Ansätze verfolgen häufig ein hybrides Prinzip aus Rekonstruktion und Generierung. Dabei wird zunächst eine 3D- oder 4D-Repräsentation einer Szene erstellt, die dann als geometrische Grundlage für generative Modelle dient. Dieser Ansatz ermöglicht eine hohe räumlich-zeitliche Konsistenz und präzise Kamerasteuerung.
Jedoch sind bestehende Lösungen oft mit Skalierbarkeitsbeschränkungen konfrontiert. Diese äussern sich primär in zwei Aspekten: Der begrenzte Zugriff auf geeignete Daten und die aufwendige Vorverarbeitung für das Training. Viele Methoden erfordern teure, spezialisierte Multi-View-4D-Daten oder umfangreiche Offline-Verarbeitungsschritte, um Trainingsdaten zu erzeugen. Dies limitiert die Verallgemeinerungsfähigkeit und Vielseitigkeit der Modelle erheblich.
Ein Team von Forschenden hat mit NeoVerse ein 4D-Weltmodell vorgestellt, das diese Herausforderungen adressiert. Die Kernphilosophie von NeoVerse ist es, die gesamte Pipeline auf eine breite Palette von monokularen Videos, die "in freier Wildbahn" aufgenommen wurden, skalierbar zu machen. Dadurch soll die Verallgemeinerungsfähigkeit und Vielseitigkeit von 4D-Weltmodellen signifikant verbessert werden.
NeoVerse basiert auf einer innovativen Architektur, die eine effiziente 4D-Rekonstruktion und eine geführte Videogenerierung integriert. Im Folgenden werden die Schlüsselkomponenten und deren Funktionsweise detailliert erläutert.
Ein zentraler Bestandteil von NeoVerse ist ein pose-freies Feed-Forward 4D Gaussian Splatting (4DGS)-Modell. Dieses Modell baut auf dem VGGT-Framework auf und wurde speziell für dynamische Szenen weiterentwickelt. Es ist in der Lage, 4DGS-Repräsentationen direkt aus monokularen Videos zu rekonstruieren.
Die Bewegungsmodellierung in NeoVerse unterscheidet sich von früheren uni-direktionalen Ansätzen. Bei einem monokularen Video extrahiert das Modell zunächst frame-weise Merkmale. Um die zeitliche Dynamik zu erfassen, wird ein bidirektionaler Bewegungs-Encoding-Zweig eingeführt. Dieser Zweig ermöglicht die Vorhersage der momentanen Geschwindigkeit zwischen aufeinanderfolgenden Zeitstempeln in beide Richtungen (vorwärts und rückwärts). Diese bidirektionale Vorhersage ist entscheidend für eine präzise zeitliche Interpolation von Gaussschen Primitiven.
Die 4D-Gaussschen Primitiven in NeoVerse werden durch eine Reihe von Parametern definiert: 3D-Position, Opazität, Rotation, Skalierung und sphärische Harmonische Koeffizienten. Neu hinzugekommen sind vorwärts- und rückwärtsgerichtete lineare und Winkelgeschwindigkeiten sowie eine Lebensdauer. Die 3D-Positionen werden durch Rückprojektion der Pixeltiefe in den 3D-Raum unter Verwendung der vorhergesagten Tiefe und Kameraparameter ermittelt. Die dynamischen Attribute, insbesondere die Geschwindigkeiten, werden aus den bidirektionalen Bewegungsmerkmalen abgeleitet.
Die Kombination von Rekonstruktion und Generierung erfolgt in einer skalierbaren Trainingspipeline.
Um die Trainingseffizienz zu steigern, führt NeoVerse eine Rekonstruktion aus spärlichen Schlüsselbildern ein. Anstatt jedes einzelne Frame eines langen Videos zu verarbeiten, werden nur wenige Schlüsselbilder für die 4DGS-Rekonstruktion verwendet. Das Rendering erfolgt jedoch für alle Frames. Die bidirektionale Bewegungsmodellierung ermöglicht es, die Gaussschen Felder für Nicht-Schlüsselbilder präzise zu interpolieren. Dabei wird die Position, Rotation und Opazität der Gaussschen Primitive basierend auf den vorhergesagten Geschwindigkeiten und einer zeitlich variierenden Opazitätsfunktion angepasst.
Ein weiterer innovativer Aspekt ist die monokulare Degradationssimulation. Da das Generierungsmodell qualitativ hochwertige neue Ansichten aus potenziell minderwertigen Renderings erzeugen soll, sind entsprechende Trainingspaare erforderlich. Bei Multi-View- oder statischen Datensätzen ist dies relativ einfach. Für monokulare Videos in freier Wildbahn sind jedoch spezielle Techniken zur Simulation von Degradationsmustern notwendig. NeoVerse verwendet hierfür drei Methoden:
Die generierten, degradierten Renderings werden als Bedingungen für das Generierungsmodell verwendet, während die Originalvideos als Ziel dienen. Diese Bedingungen umfassen RGB-Bilder, Tiefenkarten und binäre Masken, die aus Opazitätskarten abgeleitet werden, um leere Regionen zu kennzeichnen. Zusätzlich werden Plücker-Einbettungen der ursprünglichen Trajektorie berechnet, um explizite 3D-Kamerabewegungsinformationen bereitzustellen. Ein Kontrollzweig integriert diese Bedingungen in das Generierungsmodell. Während des Trainings wird lediglich der Kontrollzweig trainiert, während das Videogenerierungsmodell eingefroren bleibt. Dies erhöht nicht nur die Trainingseffizienz, sondern ermöglicht auch die Nutzung leistungsstarker Destillations-LoRAs zur Beschleunigung des Generierungsprozesses.
Das Training von NeoVerse ist in zwei Stufen unterteilt: das Training des Rekonstruktionsmodells und das Training des Generierungsmodells.
Das Feed-Forward 4DGS-Rekonstruktionsmodell wird mit einer Multi-Task-Verlustfunktion auf verschiedenen statischen und dynamischen 3D-Datensätzen trainiert. Die Verlustfunktion umfasst photometrische Verluste, Kameraparameter- und Tiefenverluste sowie einen Bewegungsverlust, der die vorhergesagten bidirektionalen Geschwindigkeiten überwacht. Ein Regularisierungsverlust verhindert zudem, dass Gausssche Primitive fälschlicherweise transparent werden.
Für das Generierungsmodell wird ein Rectified Flow und Wan-T2V 14B verwendet, um den Entrauschungs-Diffusionsprozess zu modellieren. Das Training erfolgt auf monokularen Videos. Dabei wird die On-the-fly-Rekonstruktion aus spärlichen Schlüsselbildern genutzt, um 4DGS-Repräsentationen zu erhalten und degradierte Renderings als Bedingungen zu simulieren.
Bei der Inferenz liefert das Feed-Forward-Modell 4DGS-Repräsentationen und Kameraparameter für jedes Frame. Für eine vollständigere Darstellung können Gausssche Primitive aus mehreren Zeitstempeln zu einem einzigen Zeitstempel zusammengeführt werden. Hierbei kommt ein globales Bewegungs-Tracking zum Einsatz, um statische und dynamische Objekte zu unterscheiden. Statische Teile werden über alle Frames aggregiert, während dynamische Teile nur aus wenigen benachbarten Frames aggregiert werden, um Bewegungsdrift zu vermeiden. NeoVerse unterstützt auch die Interpolation von Gaussschen Primitiven für Zwischenzeitstempel, was für Anwendungen wie Zeitlupenvideos oder Bullet-Time-Aufnahmen nützlich ist.
Die Leistungsfähigkeit von NeoVerse wurde durch umfassende quantitative und qualitative Bewertungen demonstriert.
NeoVerse erreicht modernste Ergebnisse in Rekonstruktions- und Generierungsbenchmarks. In Vergleichen mit bestehenden statischen und dynamischen Rekonstruktionsmodellen übertrifft NeoVerse diese in Metriken wie PSNR, SSIM und LPIPS. Auch in der Generierungsleistung, gemessen an Subjektiver Konsistenz, Hintergrundkonsistenz, Temporärem Flackern, Bewegungssmoothness, Ästhetischer Qualität und Bildqualität, zeigt NeoVerse überlegene Ergebnisse gegenüber Konkurrenzmethoden wie TrajectoryCrafter und ReCamMaster.
Besonders hervorzuheben ist die Laufzeiteffizienz. Durch die gezielte Gestaltung der Bedingungsinjektion und die bidirektionale Bewegungsmodellierung kann NeoVerse eine deutlich schnellere Inferenzgeschwindigkeit erreichen, insbesondere bei der Rekonstruktion aus spärlichen Schlüsselbildern, ohne die Generierungsleistung zu beeinträchtigen.
Qualitative Vergleiche zeigen, dass NeoVerse nicht nur eine bessere visuelle Qualität erzielt, sondern auch treuer zu den Eingabebeobachtungen ist. Andere Methoden neigen dazu, unnatürliche Artefakte oder inkonsistente Renderings zu erzeugen.
Das Modell weist auch eine höhere Genauigkeit bei der Posenvorhersage auf, was sich in einer besseren Konsistenz des Sichtfeldes mit der Ground Truth zeigt.
Ein interessantes Phänomen ist der Trade-off zwischen Generierungsqualität und Trajektorienkontrollierbarkeit in verwandten Arbeiten. Während rekonstruktions-generierungs-hybride Methoden wie TrajectoryCrafter gute Trajektorienkontrolle bieten, ist ihre Generierungsqualität oft geringer, insbesondere bei komplexen Szenarien. Rein generierungsbasierte Methoden wie ReCamMaster erreichen zwar eine gute visuelle Generierungsqualität, mangeln jedoch an präziser Trajektorienkontrolle. NeoVerse hingegen balanciert diese Aspekte aus und bietet präzise Kamerakontrollierbarkeit und hohe Generierungsqualität, was auf die Skalierbarkeit zu diversen "in freier Wildbahn" aufgenommenen Videos zurückzuführen ist.
Die Degradationssimulationen von NeoVerse tragen massgeblich zur Unterdrückung von Artefakten bei. Ohne diese Simulationen neigt das Generierungsmodell dazu, geometrische Artefakte in den Bedingungen zu übernehmen, was zu "Ghosting"-Effekten oder unscharfen Ausgaben führt. Durch die Berücksichtigung von Okklusionen, fliegenden Kantenpixeln und Verzerrungen lernt das Modell, diese Artefakte zu unterdrücken und realistische Details in verdeckten oder verzerrten Regionen zu halluzinieren.
NeoVerse demonstriert auch die Fähigkeit zur kontextuell fundierten Imagination für nicht beobachtete Regionen, was auf seine Skalierbarkeit zu einer breiten Palette von Videos zurückzuführen ist.
Ablationsstudien bestätigen die Wirksamkeit der einzelnen Komponenten von NeoVerse:
Eine der Stärken von NeoVerse liegt in der Unterstützung vielfältiger nachgelagerter Anwendungen, die über die Generierung von Videos mit neuen Trajektorien hinausgehen:
NeoVerse repräsentiert einen bedeutenden Fortschritt in der 4D-Weltmodellierung. Durch die Überwindung zentraler Skalierbarkeitsbeschränkungen etablierter Ansätze und die Nutzung vielfältiger monokularer Videos aus der realen Welt, erzielt das Modell eine verbesserte Verallgemeinerungsfähigkeit und Vielseitigkeit. Die erzielten modernsten Ergebnisse in Rekonstruktions- und Generierungsaufgaben sowie die breite Palette an unterstützten Anwendungen unterstreichen das Potenzial von NeoVerse.
Trotz der beeindruckenden Fortschritte weist NeoVerse auch Einschränkungen auf. Das Modell benötigt Daten mit korrekten zugrundeliegenden 3D-Informationen, was eine Anwendung auf 2D-Zeichentrickfilme oder ähnliche Inhalte ohne 3D-Geometrie erschwert. Zudem ist der Umfang des aktuell verwendeten Datensatzes, obwohl gross (1 Million Clips), durch Trainingsressourcen begrenzt. Die Weiterentwicklung in diesen Bereichen bietet Potenzial für zukünftige Arbeiten.
Die Veröffentlichung des Quellcodes signalisiert zudem das Bestreben, die Entwicklung allgemeiner 4D-Weltmodelle durch die Nutzung kostengünstiger und vielfältiger monokularer Videos zu dezentralisieren und der Forschungsgemeinschaft zugänglich zu machen.
Bibliography - Yang, Y., Fan, L., Shi, Z., Peng, J., Wang, F., & Zhang, Z. (2026). NeoVerse: Enhancing 4D World Model with in-the-wild Monocular Videos. arXiv preprint arXiv:2601.00393. - HyperAI. (n.d.). NeoVerse: Enhancing 4D World Model with in-the-wild Monocular Videos. Retrieved from https://hyper.ai/en/papers/2601.00393 - Hugging Face. (2026, January 5). Daily Papers. Retrieved from https://huggingface.co/papers/week/2026-W02 - NeoVerse Project Page. (n.d.). Retrieved from https://neoverse-4d.github.io/ - AlphaXiv. (n.d.). generative-models. Retrieved from https://www.alphaxiv.org/?custom-categories=generative-models - Yang, Y. (2025, December 30). NeoVerse: Enhancing 4D World Model with in-the-wild Monocular Videos [Video]. YouTube. https://www.youtube.com/watch?v=1k8Ikf8zbZwLernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen