Jetzt reinschauen – neue Umgebung live

Neueste Ansätze in der feinkörnigen Aktionserkennung durch semi-überwachtes Lernen

Kategorien:
No items found.
Freigegeben:
January 3, 2025

Artikel jetzt als Podcast anhören

Feinkörnige Aktionserkennung: SeFAR nutzt semi-überwachtes Lernen für detaillierte Videoanalyse

Die automatische Erkennung menschlicher Handlungen in Videos ist ein zentraler Bestandteil vieler moderner KI-Systeme. Während große Sprachmodelle (LLMs) in der Lage sind, ein breites Spektrum an Aktionen zu erfassen, stoßen sie bei der detaillierten Analyse von fein abgestimmten Bewegungen an ihre Grenzen. Die sogenannte feinkörnige Aktionserkennung (FAR) befasst sich mit der Klassifizierung von Aktionen mit hoher semantischer Granularität, wie beispielsweise "Salto rückwärts gehockt mit 1 Drehung". Diese Aktionen sind oft von kurzer Dauer und erfordern eine präzise Erfassung visueller Details. Die Annotation solcher Daten ist jedoch aufwendig und teuer, und das Training von LLMs für diese spezifischen Aufgaben benötigt große Datenmengen.

Um diesen Herausforderungen zu begegnen, setzen Forscher vermehrt auf semi-überwachtes Lernen (SSL). Ein vielversprechender Ansatz in diesem Bereich ist SeFAR (Semi-supervised Fine-grained Action Recognition), ein Framework, das speziell für die feinkörnige Aktionserkennung entwickelt wurde. SeFAR nutzt innovative Methoden, um aus begrenzten Datenmengen zu lernen und gleichzeitig die Genauigkeit der Erkennung zu maximieren.

Dual-Level Temporal Elements und Temporale Perturbation

SeFAR verwendet sogenannte "Dual-Level Temporal Elements" zur Erfassung visueller Details. Diese Elemente repräsentieren die zeitliche Dynamik von Aktionen auf zwei Ebenen und ermöglichen eine differenziertere Analyse der Bewegungsabläufe. Auf Basis dieser Repräsentationen wird eine neue Augmentationsstrategie für das Teacher-Student-Lernparadigma entwickelt. Durch moderate zeitliche Perturbation, also leichte Veränderungen im zeitlichen Ablauf der Videos, wird das Modell trainiert, robust gegenüber Variationen in der Ausführung von Aktionen zu sein. Diese Strategie trägt dazu bei, die Generalisierungsfähigkeit des Modells zu verbessern.

Adaptive Regulation für stabile Lernprozesse

Ein weiteres wichtiges Element von SeFAR ist die adaptive Regulation. In semi-überwachten Lernumgebungen können die Vorhersagen des Teacher-Modells, insbesondere bei feinkörnigen Aktionen, mit hoher Unsicherheit behaftet sein. Die adaptive Regulation stabilisiert den Lernprozess, indem sie die Unsicherheit der Vorhersagen berücksichtigt und die Gewichtung der Trainingsdaten entsprechend anpasst. Dadurch wird verhindert, dass fehlerhafte Vorhersagen den Lernprozess negativ beeinflussen.

Experimentelle Ergebnisse und Ausblick

Experimente auf etablierten Datensätzen wie FineGym und FineDiving zeigen, dass SeFAR State-of-the-Art-Ergebnisse in der feinkörnigen Aktionserkennung erzielt. Auch auf Datensätzen für grobkörnige Aktionen wie UCF101 und HMDB51 übertrifft SeFAR andere semi-überwachte Methoden. Weitere Analysen bestätigen die Effektivität der einzelnen Komponenten des Frameworks. Darüber hinaus zeigen die Ergebnisse, dass die von SeFAR extrahierten Features die Fähigkeit multimodaler Foundation Models verbessern, fein granulare und domänenspezifische Semantik zu verstehen. SeFAR eröffnet somit neue Möglichkeiten für die Entwicklung robuster und effizienter KI-Systeme zur Videoanalyse.

Die Entwicklungen im Bereich der feinkörnigen Aktionserkennung sind vielversprechend und eröffnen neue Perspektiven für die Anwendung von KI in verschiedenen Bereichen. Von der Sportanalyse bis hin zur medizinischen Diagnostik – die Fähigkeit, subtile Bewegungen präzise zu erkennen und zu interpretieren, bietet ein enormes Potenzial für zukünftige Innovationen. Die Kombination von semi-überwachtem Lernen mit innovativen Ansätzen wie den in SeFAR implementierten, trägt maßgeblich dazu bei, die Grenzen der automatischen Videoanalyse zu erweitern und die Entwicklung intelligenterer Systeme voranzutreiben. Mindverse, als Anbieter von KI-basierten Content-Lösungen, verfolgt diese Entwicklungen mit großem Interesse und sieht in der feinkörnigen Aktionserkennung eine Schlüsseltechnologie für die Zukunft der Videoanalyse.

Bibliographie Huang, Y., Chen, H., Xu, Z., Jia, Z., Sun, H., & Shao, D. (2025). SeFAR: Semi-supervised Fine-grained Action Recognition with Temporal Perturbation and Learning Stabilization. AAAI Conference on Artificial Intelligence (AAAI). Singh, A., Chakraborty, O., Varshney, A., Panda, R., Feris, R., Saenko, K., & Das, A. (2021). Semi-Supervised Action Recognition with Temporal Contrastive Learning. CVPR 2021. Dave, I. R., Rizve, M. N., & Shah, M. (2024). FinePseudo: Improving Pseudo-Labelling through Temporal-Alignablity for Semi-Supervised Fine-Grained Action Recognition. ECCV 2024. Xiao, J., Jing, L., Zhang, L., He, J., She, Q., Zhou, Z., Yuille, A., & Li, Y. (2022). Learning from Temporal Gradient for Semi-supervised Action Recognition. CVPR 2022.
Was bedeutet das?

Wie können wir Ihnen heute helfen?

Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
Herzlichen Dank! Deine Nachricht ist eingegangen!
Oops! Du hast wohl was vergessen, versuche es nochmal.