Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Segmentierung von Objekten in Videos stellt eine zentrale Herausforderung in der Computer Vision dar, mit weitreichenden Anwendungen von autonomem Fahren über Robotik bis hin zur Videobearbeitung. Eine aktuelle Forschungsarbeit, bekannt als "3AM: Segment Anything with Geometric Consistency in Videos", adressiert eine der kritischsten Einschränkungen bestehender Ansätze: die Aufrechterhaltung der Objektidentität bei signifikanten Blickwinkeländerungen.
Traditionelle Methoden zur Videosegmentierung, wie beispielsweise frühere Iterationen des Segment Anything Model (SAM2), erzielen zwar gute Leistungen durch speicherbasierte Architekturen, stoßen jedoch bei großen Blickwinkeländerungen an ihre Grenzen. Dies liegt primär an ihrer Abhängigkeit von reinen Erscheinungsmerkmalen (Appearance Features). Wenn sich ein Objekt aus verschiedenen Perspektiven drastisch anders darstellt, verlieren diese Modelle häufig die Spur, was zu inkonsistenten Masken oder dem Verlust der Objektidentität führt.
Dreidimensionale Instanzsegmentierungsansätze können zwar die Blickwinkelkonsistenz besser gewährleisten, erfordern jedoch in der Regel zusätzliche Informationen wie Kameraposen, Tiefenkarten und eine aufwendige Vorverarbeitung. Diese Anforderungen machen sie für viele Echtzeit- oder Online-Anwendungen unpraktikabel oder zu rechenintensiv.
Das 3AM-Modell bietet eine Lösung, indem es 3D-bewusste Merkmale in die bestehende SAM2-Architektur integriert. Der Kern dieses Ansatzes liegt in der Nutzung von Fähigkeiten aus MUSt3R, einem Modell, das implizite geometrische Korrespondenzen durch Merkmale kodiert, die aus Mehrfachansicht-Konsistenz gelernt wurden. Dies geschieht durch einen leichtgewichtigen "Feature Merger", der Merkmale aus mehreren Ebenen von MUSt3R mit den Erscheinungsmerkmalen von SAM2 fusioniert.
Das 3AM-Modell verarbeitet jeden Video-Frame, indem es zwei komplementäre Feature-Streams extrahiert:
Diese beiden Feature-Typen werden dann im "Feature Merger" zusammengeführt. Dieser Merger nutzt Cross-Attention und konvolutionale Verfeinerung, um die Informationen zu integrieren. Die resultierenden, geometrisch bewussten Repräsentationen durchlaufen dann eine Memory-Attention-Einheit, die auf vorherige Frames Bezug nimmt, und einen Masken-Decoder, der die finale Segmentierungsmaske generiert. Entscheidend ist, dass diese Integration während des Trainings erfolgt, der Inferenz-Modus jedoch lediglich RGB-Eingaben erfordert, ohne explizite Kameraposen oder aufwendige Vorverarbeitung.
Ein wesentlicher Aspekt von 3AM ist die "Field-of-View Aware Sampling"-Strategie. Diese Strategie wurde entwickelt, um ein robustes Objektidentifikationslernen über verschiedene Kameraperspektiven hinweg zu ermöglichen. Während herkömmliches zufälliges Sampling zwar die Modell-Exposition gegenüber vielfältigen Blickwinkeln erhöht, kann es zu Problemen führen, wenn ein Objekt große räumliche Ausdehnungen hat. In solchen Fällen könnten zwei zufällig ausgewählte Frames zwar dasselbe Objekt zeigen, aber räumlich weit voneinander entfernte Regionen (z.B. Kopf- und Fußende eines Bettes). Dies kann zu widersprüchlichen Trainingssignalen führen, da das Modell versucht, inkonsistente Geometrien abzugleichen.
Die FOV-bewusste Sampling-Strategie stellt sicher, dass die ausgewählten Frames überlappende physische Bereiche des Objekts beobachten. Dies wird erreicht, indem die 3D-Punkte der Masken jedes Kandidaten-Frames in den Referenz-Frame zurückprojiziert und nur Frames beibehalten werden, deren maskierte 3D-Punkte zu einem ausreichenden Anteil innerhalb des Referenz-Kamerafrustums liegen. Dies fördert ein zuverlässiges 3D-Korrespondenzlernen und vermeidet degenerierte Fälle.
Für das Training wurden Datensätze wie ScanNet++, Replica und ASE verwendet. ScanNet++ und Replica sind besonders wertvoll aufgrund ihrer realistischen 3D-Umgebungen und großen Blickwinkelvariationen, während ASE saubere geometrische Supervision bietet und MOSE die Fähigkeit zur zeitlich kohärenten Maskierung in komplexen Szenen verbessert.
Die Leistung von 3AM wurde auf anspruchsvollen Datensätzen wie ScanNet++ und Replica evaluiert, die Szenarien mit weitreichender Bewegung und großen Blickwinkeländerungen umfassen. Die Ergebnisse zeigen eine signifikante Verbesserung gegenüber bestehenden Video-Objektsegmentierungs (VOS)-Methoden.
Auf dem ScanNet++-Datensatz erzielte 3AM eine IoU (Intersection over Union) von 0.8898 im Gesamtdatensatz und 0.9061 im besonders herausfordernden "Selected Subset", das Objekte mit häufigem Wiederauftauchen und großen Blickwinkeländerungen umfasst. Dies stellt eine deutliche Verbesserung gegenüber SAM2 (0.4392), SAM2Long (0.8233) und DAM4SAM (0.8205) dar. Auch die positiven IoU- und erfolgreichen IoU-Werte waren bei 3AM durchweg höher.
Ähnliche Ergebnisse wurden auf dem Replica-Datensatz erzielt, wo 3AM ebenfalls die beste Leistung in allen Metriken zeigte, mit einer IoU von 0.8119, die SAM2Long (0.7691) und DAM4SAM (0.7744) übertraf.
Die Forschung untersuchte auch die Leistung von 3AM bei der 3D-Instanzsegmentierung. Es wurde demonstriert, dass eine robuste 3D-Instanzsegmentierung aus geometrisch bewusster 2D-Verfolgung resultieren kann, ohne dass eine aufwendige explizite 3D-Fusion erforderlich ist. Durch die Projektion der von 3AM verfolgten 2D-Masken in den 3D-Raum konnte eine überzeugende Leistung erzielt werden. Auf dem ScanNet200-Datensatz erreichte 3AM eine AP (Average Precision) von 47.3, was den höchsten Wert unter den Online-Methoden darstellt, die keine 3D-Ground-Truth-Informationen während des Inferenz-Modus nutzen.
Ablationsstudien bestätigten die Wirksamkeit der integrierten 3D-Merkmale und der Sampling-Strategie. Die Kombination von 3AM mit alternativen Speicher-Auswahlmechanismen, wie sie in DAM4SAM oder SAM2Long vorgeschlagen wurden, führte zu moderaten zusätzlichen Verbesserungen, was darauf hindeutet, dass die Kernverbesserung von 3AM bereits eine starke und stabile Leistung liefert.
Der Vergleich verschiedener 3D-Grundlagenmodelle zeigte, dass MUSt3R aufgrund seiner Fähigkeit zur Online-Operation und starken Objekt-Ausrichtung über Blickwinkel hinweg am besten geeignet ist, um konsistente 3D-Ausrichtungen zu ermöglichen, die für eine zuverlässige Maskenpropagation entscheidend sind.
3AM stellt einen signifikanten Fortschritt im Bereich der Videosegmentierung dar, indem es die geometrische Konsistenz von 3D-Modellen mit der Effizienz von 2D-Segmentierungsmodellen wie SAM2 verbindet. Die Fähigkeit, Objekte auch bei extremen Blickwinkeländerungen und komplexen Szenen konsistent zu verfolgen, eröffnet neue Möglichkeiten für Anwendungen in verschiedenen B2B-Bereichen, die eine präzise und robuste Objekterkennung in dynamischen Umgebungen erfordern. Die Notwendigkeit von lediglich RGB-Eingaben im Inferenz-Modus macht 3AM zu einer praktikablen Lösung für eine breite Palette von realen Anwendungen.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen