KI für Ihr Unternehmen – Jetzt Demo buchen

EdgeTAM: Fortschritte in der Echtzeit-Segmentierung auf mobilen Endgeräten

Kategorien:
No items found.
Freigegeben:
November 9, 2025

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

1
🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

2
🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

3
⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

4
🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

5
👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Inhaltsverzeichnis

    mindverse studio – Ihre Plattform für digitale Effizienz

    Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.
    Mehr über Mindverse Studio erfahren

    Das Wichtigste in Kürze

    • EdgeTAM ist eine Weiterentwicklung des Segment Anything Model 2 (SAM 2), optimiert für die Ausführung auf mobilen Endgeräten.
    • Es erreicht eine deutlich höhere Geschwindigkeit, bis zu 22-mal schneller als SAM 2, und läuft mit 16 Bildern pro Sekunde (FPS) auf dem iPhone 15 Pro Max.
    • Die Effizienzsteigerung wird hauptsächlich durch den neuartigen 2D Spatial Perceiver und eine optimierte Destillationspipeline erreicht.
    • EdgeTAM behält die Kernfunktionen von SAM 2 bei und ermöglicht eine segmentierte Verfolgung von Objekten in Videos in Echtzeit auf Edge-Geräten.
    • Das Modell zeigt vergleichbare Leistungen in Promptable Video Segmentation (PVS), Segment Anything (SA) und Video Object Segmentation (VOS) Aufgaben.

    Einführung in EdgeTAM: Segmentierung und Verfolgung auf Edge-Geräten

    Die rapide Entwicklung im Bereich der künstlichen Intelligenz, insbesondere im maschinellen Sehen, hat zu Modellen geführt, die komplexe Aufgaben wie die Segmentierung von Objekten in Bildern und Videos mit hoher Präzision bewältigen können. Das Segment Anything Model (SAM) und sein Nachfolger SAM 2 haben hierbei neue Maßstäbe gesetzt, indem sie eine promptgesteuerte Segmentierung ermöglichen, die sich über statische Bilder hinaus auf Videosequenzen erstreckt. Eine wesentliche Herausforderung bleibt jedoch die effiziente Ausführung solcher rechenintensiver Modelle auf ressourcenbeschränkten Geräten, den sogenannten Edge-Geräten.

    In diesem Kontext stellt EdgeTAM (On-Device Track Anything Model) eine bedeutsame Innovation dar. Entwickelt, um die Leistungsfähigkeit von SAM 2 auf mobile Endgeräte zu bringen, adressiert EdgeTAM die Notwendigkeit einer erheblichen Effizienzsteigerung, ohne dabei die Genauigkeit zu kompromittieren. Das Modell wurde mit dem Ziel konzipiert, eine Echtzeit-Segmentierung und -Verfolgung von Objekten in Videos direkt auf Geräten wie dem iPhone 15 Pro Max zu ermöglichen.

    Die Herausforderung der On-Device-Verarbeitung

    Obwohl SAM 2 beeindruckende Fähigkeiten zur Videosegmentierung durch seinen Speicherbankmechanismus bietet, ist seine Ausführung auf mobilen Geräten aufgrund des hohen Rechenaufwands ineffizient. Frühere Optimierungsversuche für SAM konzentrierten sich hauptsächlich auf die Komprimierung des Bild-Encoders. Eine umfassende Analyse hat jedoch gezeigt, dass bei SAM 2 die neu eingeführten Speicheraufmerksamkeitsblöcke (memory attention blocks) einen entscheidenden Engpass hinsichtlich der Latenz darstellen. Diese Blöcke, die für die Integration von aktuellen Bildmerkmalen mit gespeicherten Gedächtnismerkmalen zuständig sind, erfordern eine erhebliche Matrixmultiplikation, die mobile Prozessoren ineffizient verarbeiten. Die Kernfrage war demnach, wie sich dieser Flaschenhals überwinden lässt, um eine praktikable On-Device-Lösung zu schaffen.

    Architektonische Innovationen von EdgeTAM

    EdgeTAM begegnet den genannten Herausforderungen mit zwei zentralen Säulen: einer neuartigen Architektur und einer optimierten Destillationspipeline.

    Der 2D Spatial Perceiver

    Der 2D Spatial Perceiver ist das Herzstück der Effizienzsteigerung von EdgeTAM. Er wurde entwickelt, um die dichten, auf Frame-Ebene gespeicherten Gedächtnismerkmale zu komprimieren, während ihre 2D-räumliche Struktur erhalten bleibt – ein entscheidender Aspekt für Aufgaben der dichten Vorhersage wie die Videosegmentierung. Dieser Perceiver unterteilt die lernbaren Latenten in zwei Gruppen:

    • Globale Latente: Diese funktionieren ähnlich einem traditionellen Perceiver und führen eine globale Aufmerksamkeit auf die Eingangsmerkmale aus, um eine zusammenfassende Vektorrepräsentation zu erstellen.
    • 2D-Latente: Diese erhalten eine räumliche Priorität, indem jede Latente nur für die Komprimierung eines nicht überlappenden lokalen Bereichs verantwortlich ist. Dadurch wird die räumliche Struktur beibehalten, während die Gesamtanzahl der Token reduziert wird.

    Durch die Kombination dieser beiden Ansätze kann der 2D Spatial Perceiver die rechnerische Komplexität der Speicheraufmerksamkeit erheblich reduzieren – von O(TCH²W²) auf O(TCHW(Ng + Nl)), wobei T die Anzahl der Frames, C die Kanaldimension, H und W Höhe und Breite und Ng und Nl die Anzahl der globalen bzw. 2D-Latenten darstellen. Dies führt zu einer Beschleunigung der Speicheraufmerksamkeit um das Achtfache bei vergleichbarer Leistung.

    Die Destillationspipeline

    Um die Genauigkeit von EdgeTAM weiter zu verbessern, ohne zusätzliche Inferenzkosten zu verursachen, wurde eine spezielle Destillationspipeline implementiert. Diese überträgt das Wissen des leistungsstärkeren "Lehrer"-Modells (SAM 2) auf das "Schüler"-Modell (EdgeTAM) in zwei Phasen:

    1. Bildsegmentierungs-Vortraining: In dieser Phase werden die Merkmale des Bild-Encoders von Lehrer- und Schülermodell miteinander abgeglichen.
    2. Videosegmentierungs-Training: Hierbei werden zusätzlich zu den Bild-Encoder-Merkmalen auch die Ausgaben der Speicheraufmerksamkeits-Module von Lehrer- und Schülermodell abgeglichen. Dies stellt sicher, dass auch die speicherbezogenen Module des Schülermodells von der Überwachung des Lehrers profitieren.

    Diese Distillation ermöglicht es EdgeTAM, die Genauigkeit von SAM 2 zu erreichen oder sogar zu übertreffen, obwohl es wesentlich kleiner und schneller ist.

    Leistungsanalyse und Ergebnisse

    Die Evaluierung von EdgeTAM erfolgte in drei Hauptbereichen: Promptable Video Segmentation (PVS), Segment Anything (SA) und Video Object Segmentation (VOS).

    Promptable Video Segmentation (PVS)

    EdgeTAM wurde entwickelt, um promptgesteuerte Videosegmentierung mit verschiedenen Benutzereingaben auf beliebigen Frames durchzuführen. In Tests übertraf EdgeTAM bestehende Modelle wie SAM + XMem++ und SAM + Cutie in allen Einstellungen deutlich, insbesondere bei steigender Anzahl annotierter Frames. Selbst im Vergleich zum ursprünglichen SAM 2 erzielte EdgeTAM vergleichbare Ergebnisse, war jedoch erheblich kleiner und schneller.

    Segment Anything (SA)

    Auch als reines Bildsegmentierungsmodell, bei dem das Speichermodul deaktiviert ist, zeigte EdgeTAM eine vergleichbare mIoU-Leistung wie SAM und SAM 2. Bei fünf Eingabepunkten übertraf EdgeTAM sogar SAM-H, ein speziell für die Bildsegmentierung entwickeltes Modell. Dies unterstreicht die Flexibilität von EdgeTAM als vereinheitlichtes On-Device-Segmentierungsmodell für Bilder und Videos.

    Video Object Segmentation (VOS)

    Obwohl EdgeTAM primär auf den Datensätzen SA-V und SA-1B trainiert wurde, zeigte es auf Datensätzen wie MOSE, DAVIS und YTVOS eine Leistung, die vergleichbar oder sogar besser war als die vorheriger State-of-the-Art-VOS-Modelle, die speziell auf diese Datensätze trainiert wurden. Dies demonstriert die Robustheit von EdgeTAM im Zero-Shot-Setting. Insbesondere auf dem herausfordernden SA-V-Datensatz übertraf EdgeTAM alle Vergleichsmodelle außer SAM 2 und SAM 2.1.

    Ein zentrales Ergebnis ist die beeindruckende Geschwindigkeit von EdgeTAM: Es läuft bis zu 22-mal schneller als SAM 2 und erreicht eine Bildrate von 16 FPS auf dem iPhone 15 Pro Max, ohne Quantisierung. Dies ist ein signifikanter Fortschritt für die praktikable Anwendung komplexer KI-Modelle auf mobilen Endgeräten.

    Quantitative und qualitative Ergebnisse

    Die umfassenden Ablationsstudien belegen die Wirksamkeit der einzelnen Komponenten von EdgeTAM. Der 2D Spatial Perceiver erwies sich als sowohl schneller als auch genauer als die Baseline und einfache räumliche Downsampling-Methoden. Die Destillationspipeline führte zu weiteren signifikanten Verbesserungen der J&F-Werte auf den SA-V Validierungs- und Testdatensätzen.

    Qualitative Vergleiche mit SAM 2 zeigen, dass EdgeTAM eine ähnliche Maskenqualität liefert, selbst bei komplexen Szenarien wie der Verfolgung mehrerer Instanzen derselben Klasse oder schnell bewegten Objekten mit starken Verzerrungen. Es wurde jedoch beobachtet, dass EdgeTAM in einigen Fällen eine andere Granularität der Verfolgung aufweisen kann, beispielsweise wenn Vogelpfoten in früheren Frames nicht sichtbar waren und daher nicht in die Segmentierung einbezogen wurden.

    Implementierungsdetails

    Das Training von EdgeTAM folgt im Allgemeinen dem Verfahren von SAM 2. Die Eingangsauflösung wurde auf 1024x1024 Pixel festgelegt. Für das Vortraining der Bildsegmentierung wurde der SA-1B-Datensatz verwendet, während für das Videosegmentierungs-Training eine Mischung aus SA-V, SA-1B, DAVIS, MOSE und YTVOS zum Einsatz kam. Als Bild-Encoder wurde standardmäßig RepViT-M1 verwendet, vorab trainiert auf ImageNet. Die Anzahl der Speicheraufmerksamkeitsblöcke wurde auf zwei reduziert, und für den Global Perceiver sowie den 2D Spatial Perceiver wurden jeweils 256 lernbare Latenten zugewiesen. Als Lehrmodell diente SAM2-HieraB+.

    Fazit und Ausblick

    EdgeTAM repräsentiert einen wichtigen Schritt in der Entwicklung von KI-Modellen für Edge-Geräte. Durch die Identifizierung des Engpasses im Speicheraufmerksamkeitsmodul von SAM 2 und die Einführung des 2D Spatial Perceiver zusammen mit einer effektiven Destillationspipeline ist es gelungen, ein Modell zu entwickeln, das die Fähigkeiten von SAM 2 in der promptgesteuerten Videosegmentierung, allgemeinen Bildsegmentierung und Videoobjektsegmentierung beibehält, aber gleichzeitig drastisch effizienter auf mobilen Endgeräten läuft. Die Fähigkeit, komplexe Segmentierungs- und Verfolgungsaufgaben in Echtzeit auf einem Smartphone auszuführen, eröffnet neue Möglichkeiten für eine Vielzahl von Anwendungen, von Augmented Reality über intelligente Überwachung bis hin zu mobilen Kreativwerkzeugen.

    Die Forschung hinter EdgeTAM unterstreicht die Notwendigkeit, nicht nur die Leistungsfähigkeit von KI-Modellen zu steigern, sondern auch deren praktische Anwendbarkeit auf einer breiten Palette von Hardwareplattformen zu gewährleisten. Die Ergebnisse zeigen, dass eine sorgfältige architektonische Gestaltung und intelligente Trainingsstrategien entscheidend sind, um die Kluft zwischen hochmodernen KI-Fähigkeiten und den Beschränkungen von Edge-Geräten zu überbrücken.

    Bibliographie

    - Zhou, C., Zhu, C., Xiong, Y., Suri, S., Xiao, F., Wu, L., Krishnamoorthi, R., Dai, B., Loy, C. C., Chandra, V., & Soran, B. (2025). EdgeTAM: On-Device Track Anything Model. arXiv preprint arXiv:2501.07256. - facebookresearch. (n.d.). Official PyTorch implementation of "EdgeTAM". GitHub. Abgerufen von https://github.com/facebookresearch/EdgeTAM - Zhou, C., Zhu, C., Xiong, Y., Suri, S., Xiao, F., Wu, L., Krishnamoorthi, R., Dai, B., Loy, C. C., Chandra, V., & Soran, B. (n.d.). EdgeTAM: On-Device Track Anything Model. CVF Open Access. Abgerufen von http://openaccess.thecvf.com/content/CVPR2025/papers/Zhou_EdgeTAM_On-Device_Track_Anything_Model_CVPR_2025_paper.pdf - Nicolai Nielsen. (2025, Juli 9). On-Device Track Anything Model 🖼️ EdgeTAM is an open-source ... LinkedIn. Abgerufen von https://www.linkedin.com/posts/nicolaiai_edgetam-on-device-track-anything-model-activity-7348692099627716608-_04V - EdgeTAM: On-Device Track Anything Model. (2025). IEEE Xplore. Abgerufen von https://ieeexplore.ieee.org/iel8/11091818/11091608/11092396.pdf - EdgeTAM: On-Device Track Anything Model. (2025, Januar 14). ChatPaper. Abgerufen von https://chatpaper.com/chatpaper/paper/97730 - EdgeTAM: On-Device Track Anything Model. (2025). CVPR 2025 Open Access Repository. Abgerufen von https://openaccess.thecvf.com/content/CVPR2025/html/Zhou_EdgeTAM_On-Device_Track_Anything_Model_CVPR_2025_paper.html

    Artikel jetzt als Podcast anhören

    Kunden die uns vertrauen:
    Arise Health logoArise Health logoThe Paak logoThe Paak logoOE logo2020INC logoEphicient logo
    und viele weitere mehr!

    Bereit für den nächsten Schritt?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen