Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Rekonstruktion dynamischer 3D-Szenen aus Monokularvideos stellt eine der komplexesten Herausforderungen in der Computer Vision dar. Während im Bereich der statischen 3D-Rekonstruktion durch Feed-Forward-Neuronale Netze erhebliche Fortschritte erzielt wurden, bleibt die Erfassung temporaler Dynamiken eine offene Forschungsfrage. Eine neue Entwicklung namens V-DPM ("Video Dynamic Point Maps") adressiert diese Lücke, indem sie das Konzept der Dynamic Point Maps (DPMs) auf die Verarbeitung von Multiframe-Videoeingaben erweitert. Dieser innovative Ansatz ermöglicht die umfassende Rekonstruktion von 3D-Form, dichter 3D-Bewegung (Scene Flow) und Kameraparametern in einem einzigen Feed-Forward-Pass.
Die Grundlage für V-DPM bilden Point Maps, eine leistungsstarke 3D-Repräsentation, die ursprünglich für statische Szenen entwickelt wurde. Diese Karten kodieren 3D-Formen und Kameraparameter und haben die Feed-Forward-3D-Rekonstruktion maßgeblich vorangetrieben. Dynamic Point Maps (DPMs) erweitern dieses Konzept, indem sie zusätzlich die Bewegung der Szene abbilden. Bisher waren DPMs jedoch auf Bildpaare beschränkt und erforderten bei mehr als zwei Ansichten eine nachgelagerte Optimierung, was den Einsatz in Videosequenzen erschwerte.
V-DPM überwindet diese Einschränkungen, indem es DPMs für Videoeingaben formuliert. Diese Formulierung maximiert die Repräsentationskraft, vereinfacht die neuronale Vorhersage und ermöglicht die Wiederverwendung vortrainierter Modelle. Durch die Anwendung dieser Prinzipien auf VGGT, einen modernen 3D-Rekonstruktor, wird gezeigt, dass eine begrenzte Menge synthetischer Daten ausreicht, um VGGT effektiv in einen V-DPM-Prädiktor umzuwandeln. Dieser Ansatz erzielt herausragende Ergebnisse in der 3D- und 4D-Rekonstruktion für dynamische Szenen.
Das V-DPM-System verarbeitet zunächst einen Mehrbild-Input unter Verwendung des VGGT-Netzwerks als Backbone. Lernbare Kamera- und Zeit-Token werden am Input angefügt, um spätere Vorhersagen zu ermöglichen. Ein DPT-Head wird eingesetzt, um zeitvariable Point Maps zu dekodieren, wobei die 3D-Rekonstruktion für jedes Bild im entsprechenden Zeitrahmen erfolgt. Ein weiterer zeitinvarianter Decoder berechnet zeitsynchronisierte Point Maps, wobei der gelernte Zeit-Token zur Konditionierung durch AdaLN-Transformer-Blöcke verwendet wird.
Die Kerninnovation zur Vorhersage zeitinvarianter DPMs ist ein zeitkonditionierter Transformer-Decoder. Dieser verarbeitet dieselben Backbone-Features, die für zeitvariable Karten verwendet werden. Das Design des Decoders umfasst:
Diese modulare Struktur ermöglicht es, die Aufgabe in zwei Phasen zu unterteilen: eine sichtpunktinvariante (aber zeitvariable) Rekonstruktion, gefolgt von der Herstellung der Zeitinvarianz über diese Rekonstruktionen hinweg. Dies fördert die Wiederverwendbarkeit bestehender vortrainierter statischer 3D-Rekonstruktionsmodelle und bietet Flexibilität durch die Rekonstruktion der Szene zu jedem beliebigen Zeitpunkt.
V-DPM wird mit einer strategischen Trainingsmethode trainiert, die sowohl statische als auch dynamische Datensätze nutzt. Statische Daten wie ScanNet++ und BlendedMVS liefern umfassende geometrische Vorinformationen, während dynamische Datensätze wie Kubric-F, Kubric-G, PointOdyssey und Waymo zeitliche Bewegungsinformationen bereitstellen. Das Training verwendet Videosequenzen unterschiedlicher Länge, um die Generalisierung komplexer Bewegungen zu fördern. Eine entscheidende Implementierungsdetails ist die Verlustnormalisierung, die den Verlust innerhalb jedes Beispiels vor der Stapelverarbeitung mittelt, um zu verhindern, dass die zahlreichen statischen Punkte die spärlichen dynamischen Annotationen während der Gradientenaktualisierung dominieren.
Die experimentellen Ergebnisse zeigen eine deutliche Überlegenheit von V-DPM bei der dichten Punktverfolgung. In 2-Ansichten-Szenarien mit Frame-Margen von 2 oder 8 erreicht V-DPM eine etwa 5-fach niedrigere End-Punkt-Fehlerrate (EPE) im Vergleich zu den besten Wettbewerbern auf allen dynamischen Datensätzen (PointOdyssey, Kubric-F, Kubric-G, Waymo). Bei der Verfolgung von 10-Frame-Sequenzen behält V-DPM eine konsistente Leistung bei, während die Genauigkeit anderer DPM-Ansätze aufgrund ihrer begrenzten Nutzung des zeitlichen Kontexts stark abnimmt.
Auch bei der Video-Tiefenschätzung und Kameraposen-Schätzung erzielt V-DPM mit einem Sliding-Window-Ansatz und Bundle Adjustment für längere Sequenzen konkurrenzfähige Ergebnisse auf Datensätzen wie Sintel und Bonn. Obwohl es in einigen Metriken von Ansätzen wie π3 übertroffen wird, wird dies auf die größere Trainingsskala und den stärkeren Backbone von π3 zurückgeführt, was die Kompatibilität von V-DPM mit der Integration robusterer Backbones unterstreicht.
V-DPM stellt einen bedeutenden Fortschritt in der 4D-Rekonstruktion dar, indem es Dynamic Point Maps erfolgreich für die Multiframe-Verarbeitung erweitert und gleichzeitig die Effizienz des Feed-Forward-Ansatzes beibehält. Die Arbeit demonstriert, dass leistungsstarke statische 3D-Rekonstruktionsnetzwerke mit minimalem zusätzlichem Trainingsaufwand, hauptsächlich mit synthetischen Daten, effektiv für dynamische Szenen angepasst werden können.
Zu den wesentlichen Beiträgen gehören:
Die Fähigkeit, eine umfassende 4D-Rekonstruktion mit Form- und Bewegungserfassung durchzuführen, hat weitreichende Auswirkungen auf Anwendungen wie visuelle Effekte, Robotik, autonome Systeme und Weltmodellierung. Die Demonstration, dass begrenzte dynamische Trainingsdaten effektiv mit umfangreichen statischen Datensätzen kombiniert werden können, weist einen praktischen Weg zur Skalierung der 4D-Rekonstruktionsfähigkeiten. Obwohl die Autoren Einschränkungen in der Bewertungsskala anerkennen und auf potenzielle Leistungssteigerungen durch größere Trainingsskalen oder stärkere Backbones hinweisen, legt V-DPM eine solide Grundlage für das Fortschreiten des dynamischen Szenenverständnisses.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen