Sapiens Modelle revolutionieren die menschzentrierte Computer Vision

Kategorien:

No items found.

Freigegeben:

August 30, 2024

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Sapiens: Ein Durchbruch in der Mensch-zentrierten Computer Vision

In den letzten Jahren hat die Computer Vision enorme Fortschritte gemacht, insbesondere im Bereich der menschenzentrierten Aufgaben. Meta hat kürzlich eine neue Familie von Modellen unter dem Namen "Sapiens" vorgestellt, die sich auf vier wesentliche Vision-Aufgaben konzentrieren: 2D-Pose-Schätzung, Körperteil-Segmentierung, Tiefenschätzung und Oberflächennormalen-Vorhersage. Diese Modelle wurden auf der Plattform Hugging Face sowie in Demos auf Gradio präsentiert.

Vier Kernaufgaben der Mensch-zentrierten Vision

Die Sapiens-Modelle wurden entwickelt, um vier entscheidende menschliche Vision-Aufgaben zu bewältigen:

- 2D-Pose-Schätzung - Körperteil-Segmentierung - Tiefenschätzung - Oberflächennormalen-Vorhersage

Die Modelle unterstützen native Hochauflösungsinferenz und sind einfach an individuelle Aufgaben anpassbar, indem sie Modelle feinabstimmen, die auf über 300 Millionen Bildern aus der freien Wildbahn vortrainiert wurden. Diese Vorgehensweise ermöglicht eine bemerkenswerte Generalisierung auf unvorhergesehene Daten, selbst wenn die gelabelten Daten knapp oder vollständig synthetisch sind.

Die Bedeutung der Vortrainierung

Ein wesentlicher Bestandteil des Erfolgs der Sapiens-Modelle ist ihre Vortrainierung auf einem umfangreichen Datensatz von menschlichen Bildern. Die Vortrainierung erfolgt unter Verwendung eines einfachen und effizienten Masked-Autoencoder-Ansatzes (MAE), der eine größere Menge an Bildern mit denselben Rechenressourcen verarbeiten kann. Die Modelle unterstützen eine native Eingangauflösung von 1024 Pixeln, was eine vierfache Zunahme der FLOPs im Vergleich zu bestehenden Vision-Backbones darstellt.

Feinabstimmung und Generalisierung

Nach der Vortrainierung werden die Modelle feinabgestimmt, um spezifische menschliche Aufgaben zu bewältigen. Dabei wird eine konsistente Encoder-Decoder-Architektur verwendet. Der Encoder wird mit den Gewichten aus der Vortrainierung initialisiert, während der Decoder, ein leichter und aufgaben-spezifischer Kopf, zufällig initialisiert wird. Beide Komponenten werden dann end-to-end feinabgestimmt.

Verbesserungen gegenüber bestehenden Methoden

Die Sapiens-Modelle zeigen signifikante Verbesserungen gegenüber früheren Methoden in verschiedenen Benchmarks:

- 7.6 mAP Verbesserung bei Humans-5K (Pose) - 17.1 mIoU Verbesserung bei Humans-2K (Körperteil-Segmentierung) - 22.4% relative RMSE Verbesserung bei Hi4D (Tiefe) - 53.5% relative Winkel-Fehler Verbesserung bei THuman2 (Oberflächennormalen)

Hochwertige Annotationen und synthetische Daten

Um die Qualität und Konsistenz der Annotationen zu gewährleisten, nutzt das Team eine Multi-View-Aufnahme-Setup zur Erfassung von Pose- und Segmentierungs-Annotationen. Zusätzlich werden mensch-zentrierte synthetische Daten für die Tiefen- und Normalenschätzung verwendet, indem detaillierte Scans von RenderPeople genutzt werden, um hochauflösende Tiefenkarten und Oberflächennormalen zu generieren.

Schlussfolgerung

Die Kombination aus domänenspezifischer großskaliger Vortrainierung und hochwertigen, wenn auch begrenzten Annotationen führt zu einer robusten Generalisierung in der freien Wildbahn. Insgesamt demonstriert die Methode eine effektive Strategie zur Entwicklung hochpräziser diskriminativer Modelle, die in realen Szenarien ohne die Notwendigkeit kostspieliger und vielfältiger Annotationen performen können.

Bibliografie

https://huggingface.co/facebook/sapiens https://huggingface.co/papers/2408.12569 https://arxiv.org/html/2408.12569v2 https://www.gradio.app/guides/using-hugging-face-integrations https://elib.dlr.de/186346/1/2021_weiqi_final_report.pdf