Die Verfolgung von Punkten in 3D-Videos ist eine Herausforderung, die in vielen Bereichen, von der Robotik bis zur Filmproduktion, eine wichtige Rolle spielt. Ein neuer Ansatz namens TAPIP3D verspricht hier signifikante Verbesserungen. Das Verfahren ermöglicht die langfristige Verfolgung von 3D-Punkten in monokularen RGB- und RGB-D-Videos und setzt dabei auf eine neuartige Methode der Kamerastabilisierung und räumlich-zeitlichen Merkmalswolken.
TAPIP3D transformiert Videodaten in stabilisierte 3D-Punktwolken. Tiefeninformationen und Kamerbewegungsdaten werden genutzt, um 2D-Videomerkmale in einen 3D-Weltraum zu projizieren, in dem die Kamerabewegung effektiv kompensiert wird. Dieser stabilisierte 3D-Raum bildet die Grundlage für die iterative Verfeinerung von Bewegungsabschätzungen über mehrere Frames hinweg, was eine robuste Verfolgung über längere Zeiträume ermöglicht.
Eine besondere Herausforderung bei der 3D-Punktverfolgung liegt in der unregelmäßigen Verteilung der 3D-Punkte. Um diesem Problem zu begegnen, verwendet TAPIP3D einen sogenannten "Local Pair Attention"-Mechanismus. Diese 3D-Kontextualisierungsstrategie nutzt räumliche Beziehungen im 3D-Raum, um informative Merkmalsumgebungen zu bilden und so eine präzise Schätzung der 3D-Trajektorien zu gewährleisten.
Die Ergebnisse von TAPIP3D sind vielversprechend. Der 3D-zentrierte Ansatz übertrifft bestehende 3D-Punktverfolgungsmethoden deutlich. Interessanterweise verbessert TAPIP3D bei Vorliegen genauer Tiefeninformationen sogar die Genauigkeit der 2D-Verfolgung im Vergleich zu herkömmlichen 2D-Pixel-Trackern. Das System unterstützt Inferenz sowohl in Kamerakoordinaten (unstabilisiert) als auch in Weltkoordinaten. Die Ergebnisse zeigen, dass die Kompensation der Kamerabewegung die Tracking-Performance verbessert.
Im Gegensatz zu bisherigen 2D- und 3D-Trackern, die auf konventionelle quadratische Korrelationsumgebungen setzen, verwendet TAPIP3D einen innovativen Ansatz. Dadurch erzielt das Verfahren robustere und genauere Ergebnisse in verschiedenen 3D-Punktverfolgungs-Benchmarks.
TAPIP3D stellt einen wichtigen Fortschritt im Bereich der 3D-Punktverfolgung dar. Die Kombination aus Kamerastabilisierung, räumlich-zeitlichen Merkmalswolken und dem "Local Pair Attention"-Mechanismus ermöglicht eine robuste und präzise Verfolgung von Punkten über längere Zeiträume. Diese Technologie hat das Potenzial, zahlreiche Anwendungen in verschiedenen Bereichen zu revolutionieren, von der autonomen Navigation bis zur virtuellen Realität.
Bibliographie: http://arxiv.org/abs/2407.05921 https://arxiv.org/html/2407.05921v1 https://proceedings.neurips.cc/paper_files/paper/2024/file/9566607d423f8c32a2d5ce09a8b62232-Paper-Datasets_and_Benchmarks_Track.pdf https://paperswithcode.com/dataset/tapvid-3d-a-benchmark-for-tracking-any-point https://tapvid3d.github.io/ https://deepmind-tapir.github.io/