Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
In den letzten Jahren hat die Computer Vision enorme Fortschritte gemacht, insbesondere im Bereich der menschenzentrierten Aufgaben. Meta hat kürzlich eine neue Familie von Modellen unter dem Namen "Sapiens" vorgestellt, die sich auf vier wesentliche Vision-Aufgaben konzentrieren: 2D-Pose-Schätzung, Körperteil-Segmentierung, Tiefenschätzung und Oberflächennormalen-Vorhersage. Diese Modelle wurden auf der Plattform Hugging Face sowie in Demos auf Gradio präsentiert.
Die Sapiens-Modelle wurden entwickelt, um vier entscheidende menschliche Vision-Aufgaben zu bewältigen:
- 2D-Pose-Schätzung - Körperteil-Segmentierung - Tiefenschätzung - Oberflächennormalen-VorhersageDie Modelle unterstützen native Hochauflösungsinferenz und sind einfach an individuelle Aufgaben anpassbar, indem sie Modelle feinabstimmen, die auf über 300 Millionen Bildern aus der freien Wildbahn vortrainiert wurden. Diese Vorgehensweise ermöglicht eine bemerkenswerte Generalisierung auf unvorhergesehene Daten, selbst wenn die gelabelten Daten knapp oder vollständig synthetisch sind.
Ein wesentlicher Bestandteil des Erfolgs der Sapiens-Modelle ist ihre Vortrainierung auf einem umfangreichen Datensatz von menschlichen Bildern. Die Vortrainierung erfolgt unter Verwendung eines einfachen und effizienten Masked-Autoencoder-Ansatzes (MAE), der eine größere Menge an Bildern mit denselben Rechenressourcen verarbeiten kann. Die Modelle unterstützen eine native Eingangauflösung von 1024 Pixeln, was eine vierfache Zunahme der FLOPs im Vergleich zu bestehenden Vision-Backbones darstellt.
Nach der Vortrainierung werden die Modelle feinabgestimmt, um spezifische menschliche Aufgaben zu bewältigen. Dabei wird eine konsistente Encoder-Decoder-Architektur verwendet. Der Encoder wird mit den Gewichten aus der Vortrainierung initialisiert, während der Decoder, ein leichter und aufgaben-spezifischer Kopf, zufällig initialisiert wird. Beide Komponenten werden dann end-to-end feinabgestimmt.
Die Sapiens-Modelle zeigen signifikante Verbesserungen gegenüber früheren Methoden in verschiedenen Benchmarks:
- 7.6 mAP Verbesserung bei Humans-5K (Pose) - 17.1 mIoU Verbesserung bei Humans-2K (Körperteil-Segmentierung) - 22.4% relative RMSE Verbesserung bei Hi4D (Tiefe) - 53.5% relative Winkel-Fehler Verbesserung bei THuman2 (Oberflächennormalen)Um die Qualität und Konsistenz der Annotationen zu gewährleisten, nutzt das Team eine Multi-View-Aufnahme-Setup zur Erfassung von Pose- und Segmentierungs-Annotationen. Zusätzlich werden mensch-zentrierte synthetische Daten für die Tiefen- und Normalenschätzung verwendet, indem detaillierte Scans von RenderPeople genutzt werden, um hochauflösende Tiefenkarten und Oberflächennormalen zu generieren.
Die Kombination aus domänenspezifischer großskaliger Vortrainierung und hochwertigen, wenn auch begrenzten Annotationen führt zu einer robusten Generalisierung in der freien Wildbahn. Insgesamt demonstriert die Methode eine effektive Strategie zur Entwicklung hochpräziser diskriminativer Modelle, die in realen Szenarien ohne die Notwendigkeit kostspieliger und vielfältiger Annotationen performen können.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen