KI für Ihr Unternehmen – Jetzt Demo buchen

Optimierung der Personenhaltungsschätzung aus der Luft: Das Modell FlyPose im Fokus

Kategorien:
No items found.
Freigegeben:
January 14, 2026

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

1
🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

2
🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

3
⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

4
🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

5
👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Inhaltsverzeichnis

    mindverse studio – Ihre Plattform für digitale Effizienz

    Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.
    Mehr über Mindverse Studio erfahren

    Das Wichtigste in Kürze

    • Drohnengestützte Personenhaltungsschätzung (HPE) ist ein entscheidender Faktor für die sichere und effiziente Interaktion zwischen Mensch und Drohne bei Anwendungen wie Paketlieferung, Verkehrsüberwachung und Katastrophenhilfe.
    • Die Forschungsgruppe "FlyPose" hat ein leichtgewichtiges, Top-Down-HPE-Modell entwickelt, das speziell für Luftaufnahmen optimiert wurde.
    • Das Modell demonstriert mit einer durchschnittlichen Verbesserung von 6,8 mAP bei der Personenerkennung und 16,3 mAP bei der 2D-HPE auf verschiedenen Datensätzen eine höhere Robustheit und Genauigkeit.
    • "FlyPose" erreicht eine Inferenzlatenz von etwa 20 Millisekunden auf einem Jetson Orin AGX Developer Kit, was Echtzeitbetrieb an Bord von Drohnen ermöglicht.
    • Die Veröffentlichung des "FlyPose-104"-Datensatzes trägt zur Bereitstellung dringend benötigter annotierter Luftaufnahmen für die HPE-Forschung bei.
    • Herausforderungen bleiben bestehen, insbesondere bei der Erkennung kleiner, stark verdeckter oder sich überlappender Personen sowie bei der Robustheit gegenüber unterschiedlichen Beleuchtungs- und Hintergrundbedingungen.

    Die fortschreitende Integration unbemannter Luftfahrzeuge (UAVs) in den zivilen und kommerziellen Sektor eröffnet eine Vielzahl neuer Anwendungsmöglichkeiten, von der Auslieferung von Paketen über die Überwachung des Verkehrs bis hin zur Unterstützung bei Katastrophenfällen. Ein zentraler Aspekt für den sicheren und zuverlässigen Betrieb dieser Drohnen in belebten Umgebungen ist die präzise Erfassung menschlicher Posen und Handlungen aus der Luftperspektive. Diese Aufgabe, bekannt als Human Pose Estimation (HPE), stellt aufgrund der einzigartigen Herausforderungen von Luftaufnahmen, wie geringe Auflösung, steile Blickwinkel und Okklusionen, eine komplexe Problemstellung dar. Eine Forschungsgruppe hat sich diesen Herausforderungen angenommen und ein robustes, leichtgewichtiges Modell namens "FlyPose" entwickelt, das speziell für die Personenhaltungsschätzung aus der Vogelperspektive konzipiert wurde.

    Herausforderungen der Personenhaltungsschätzung aus der Luftperspektive

    Die herkömmliche Personenhaltungsschätzung, die oft auf bodengestützten Aufnahmen basiert, stößt bei Luftaufnahmen schnell an ihre Grenzen. Die Perspektive von UAVs führt zu spezifischen Schwierigkeiten:

    • Geringe Auflösung: Mit zunehmender Flughöhe der Drohne nimmt die Anzahl der Pixel, die eine Person im Bild einnimmt, drastisch ab. Dies erschwert die Erkennung feiner Details der menschlichen Anatomie.
    • Steile Blickwinkel und Selbstverdeckung: Die Top-Down-Ansicht führt zu einer Verkürzung der Gliedmaßen und häufigen Selbstverdeckungen, insbesondere der unteren Körperhälfte und der Gesichtsmerkmale.
    • Vielfältige Umgebungsbedingungen: Drohnen operieren in unterschiedlichsten Umgebungen, von städtischen Gebieten bis hin zu ländlichen Landschaften, was eine hohe Generalisierungsfähigkeit der Modelle erfordert.
    • Echtzeit-Anforderungen: Viele Drohnenanwendungen erfordern eine schnelle und präzise Verarbeitung der Bilddaten direkt an Bord des UAVs, was die verfügbaren Rechenressourcen begrenzt.

    Bestehende Methoden, die für bodengestützte Aufnahmen trainiert wurden, zeigen bei der Anwendung auf Luftaufnahmen einen deutlichen Leistungsabfall. Dies unterstreicht die Notwendigkeit spezialisierter Modelle, die auf die Besonderheiten der Luftperspektive zugeschnitten sind.

    "FlyPose": Ein optimierter Ansatz für die Luftbild-HPE

    Die Forschungsgruppe hat mit "FlyPose" eine Top-Down-HPE-Pipeline entwickelt, die diesen spezifischen Anforderungen gerecht wird. Der Ansatz basiert auf einem zweistufigen Verfahren:

    1. Personenerkennung: Zunächst identifiziert ein leichtgewichtiger Objektdetektor Personen in den Luftbildern und erstellt um diese herum Begrenzungsrahmen.
    2. Posen-Schätzung: Anschließend wird für jede erkannte Person ein spezialisiertes Posen-Schätzungsmodul angewendet, um die 2D-Gelenkpunkte zu extrahieren.

    Ein wesentlicher Bestandteil der "FlyPose"-Entwicklung war das Training des Modells auf einer Vielzahl von Luftbild-Datensätzen. Dies ermöglichte es dem Modell, robuster mit den Herausforderungen von Top-Down-Ansichten und kleinen Skalen umzugehen. Darüber hinaus wurde der neu erstellte Datensatz "FlyPose-104" veröffentlicht, der manuell annotierte Luftaufnahmen mit schwierigen Perspektiven und Verdeckungen enthält. Dieser Datensatz soll die Forschung im Bereich der luftgestützten HPE weiter vorantreiben.

    Technische Details und Performance

    Für die Personenerkennung wurde eine Variante von RT-DETRv2-S verwendet, die an luftgestützte Bilddaten angepasst wurde. Eine wichtige Modifikation war der Einsatz der Normalized Wasserstein Distance Loss (NWDL) anstelle des Generalized Intersection over Union (IoU) Loss, um ein stabileres Training bei kleineren Objekten zu ermöglichen. Für die Posen-Schätzung wurde die ViTPose-Architektur ausgewählt, die für ihre hohe Leistung bei bodengestützten Datensätzen bekannt ist. Diese wurde speziell auf den UAV-Human-Datensatz feinabgestimmt, um die Genauigkeit bei Luftaufnahmen zu verbessern.

    Die Ergebnisse der Experimente zeigen signifikante Verbesserungen:

    • Eine durchschnittliche Steigerung von 6,8 mAP bei der Personenerkennung über mehrere Testdatensätze hinweg (Manipal-UAV, VisDrone, HIT-UAV und der eigene FlyPose-104 Datensatz).
    • Eine Verbesserung von 16,3 mAP bei der 2D-HPE auf dem anspruchsvollen UAV-Human-Datensatz.

    Ein entscheidender Aspekt für den praktischen Einsatz ist die Echtzeitfähigkeit. "FlyPose" erreicht eine Inferenzlatenz von etwa 20 Millisekunden, einschliesslich der Vorverarbeitung, auf einem Jetson Orin AGX Developer Kit. Dies ermöglicht eine Bildrate von über 25 Bildern pro Sekunde, was für viele Echtzeit-Anwendungen ausreichend ist.

    Einsatz an Bord von UAVs

    Die Praxistauglichkeit von "FlyPose" wurde durch den Einsatz auf einem Quadrotor-UAV demonstriert. Ein Jetson Orin AGX Developer Kit und eine multispektrale Gimbal-Kamera wurden auf einer kommerziellen Drohne montiert. Das System war in der Lage, Posen in Echtzeit zu schätzen und so beispielsweise die Zeigerichtung einer Person für eine simulierte Frachtaufnahmeaufgabe zu bestimmen. Die geringe Latenz des Systems, die hauptsächlich durch die Bildaufnahme der Kamera bedingt war, ermöglichte eine reaktionsschnelle Interaktion zwischen Mensch und Drohne.

    Diskussion und zukünftige Perspektiven

    Die Entwicklung von "FlyPose" stellt einen wichtigen Schritt zur robusten Personenhaltungsschätzung aus der Luft dar. Dennoch bleiben Herausforderungen bestehen, die zukünftige Forschungsanstrengungen erfordern:

    • Erkennung kleiner Objekte: Obwohl "FlyPose" eine verbesserte Leistung bei Luftaufnahmen zeigt, haben leichtgewichtige Detektoren weiterhin Schwierigkeiten mit sehr kleinen Objekten, insbesondere in unübersichtlichen Hintergründen. Die Integration von zeitlichen Bewegungsmerkmalen könnte hier eine Lösung bieten.
    • Verdeckung und Überlappung: Starke Verdeckungen, sei es durch Objekte oder durch andere Personen, stellen weiterhin eine Hürde für die präzise Posen-Schätzung dar. Fehlinterpretationen, wie das Verwechseln von Personen oder das Auslassen von Körperteilen, treten unter diesen Bedingungen häufiger auf.
    • Vielseitigkeit von Datensätzen: Die Kombination von Top-Down-Ansichten und Frontalansichten sowie RGB- und Wärmebildern in einem einzigen Datensatz hat sich als vorteilhaft erwiesen, um die Generalisierungsfähigkeit des Modells zu verbessern. Die weitere Erforschung und Entwicklung vielfältigerer annotierter Datensätze ist entscheidend.
    • Gesichtsmerkmale: Die Genauigkeit bei der Erkennung von Gesichtsmerkmalen wie Nase, Augen und Ohren ist aus der Luftperspektive aufgrund von Verdeckungen und begrenzter Sichtbarkeit geringer als bei anderen Körperteilen.

    Trotz dieser Herausforderungen bietet "FlyPose" eine solide Grundlage für die Entwicklung intelligenter, kontextbewusster Drohnen. Der modulare Aufbau und die Echtzeitfähigkeit des Systems sind von Vorteil für neue Drohnenanwendungen, die eine schnelle Interaktion oder Reaktion auf menschliche Aktivitäten erfordern. Zukünftige Arbeiten könnten die Integration von 3D-HPE-Datensätzen zur Verfeinerung von Posen, die Nutzung von Metadaten zur Verbesserung der Modellgenauigkeit und die Entwicklung neuer Strategien für den Umgang mit Verdeckungen umfassen. Die kontinuierliche Forschung und Entwicklung in diesem Bereich wird dazu beitragen, das Potenzial von UAVs in von Menschen bevölkerten Umgebungen voll auszuschöpfen.

    Dieses Forschungsprojekt wurde durch das Bundesministerium für Wirtschaft und Energie (BMWK) im Rahmen des Luftfahrtforschungsprogramms LuFo VI-2 (CargoPack, Grant-ID: 20D2111D) finanziert.

    Die hier vorgestellten Erkenntnisse bieten der B2B-Zielgruppe von Mindverse, die an KI-gestützten Lösungen für die Analyse visueller Daten interessiert ist, wertvolle Einblicke in den aktuellen Stand der Technik und zukünftige Entwicklungspotenziale im Bereich der Personenhaltungsschätzung aus der Luftperspektive. Die Fähigkeit, menschliche Posen und Aktionen präzise und in Echtzeit zu erkennen, ist ein Schlüsselfaktor für eine Vielzahl von Anwendungen, die von der Sicherheitsüberwachung bis zur logistischen Unterstützung reichen.

    Bibliography - Farooq, H., Brenner, M., & Stütz, P. (2026). FlyPose: Towards Robust Human Pose Estimation From Aerial Views. arXiv preprint arXiv:2601.05747. - WACV 2026 Accepted Papers. (n.d.). Retrieved from https://wacv.thecvf.com/Conferences/2026/AcceptedPapers - alphaXiv. (n.d.). robotics. Retrieved from https://www.alphaxiv.org/?subcategories=robotics - Hugging Face. (n.d.). Daily Papers. Retrieved from https://huggingface.co/papers/week/2026-W03 - Digital.lib.washington.edu. (n.d.). Towards Robust and Effective Human Pose Estimation and ... Retrieved from https://digital.lib.washington.edu/researchworks/items/f978f61b-ac47-466b-9c32-6b2aad9f3f5f/full - Arxiv.org. (n.d.). Computer Science > Computer Vision and Pattern Recognition. Retrieved from https://arxiv.org/abs/2408.11814 - Ui.adsabs.harvard.edu. (n.d.). Active Human Pose Estimation via an Autonomous UAV Agent. Retrieved from https://ui.adsabs.harvard.edu/abs/2024arXiv240701811C/abstract - Arxiv.org. (n.d.). Towards Robust and Realistic Human Pose Estimation via WiFi Signals. Retrieved from https://arxiv.org/abs/2501.09411 - Tianweiz07.github.io. (n.d.). Towards Robust and Expressive Whole-body Human Pose ... Retrieved from https://tianweiz07.github.io/Papers/23-NeurIPS.pdf

    Artikel jetzt als Podcast anhören

    Kunden die uns vertrauen:
    Arise Health logoArise Health logoThe Paak logoThe Paak logoOE logo2020INC logoEphicient logo
    und viele weitere mehr!

    Bereit für den nächsten Schritt?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen