Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Weiterentwicklung der Robotik hängt maßgeblich von der Fähigkeit ab, die Umgebung präzise wahrzunehmen und zu interpretieren. Tiefensensoren spielen hierbei eine zentrale Rolle und sind auf einer Vielzahl von Roboterplattformen weit verbreitet. Fortschritte in der schnellen und hochpräzisen Tiefensimulation haben es ermöglicht, Roboterstrategien zu entwickeln, die auf Tiefenbeobachtungen basieren und einen robusten Transfer von der Simulation in die reale Welt für eine breite Palette von Aufgaben ermöglichen. Trotz dieser Entwicklungen ist das Lernen von Repräsentationen für die Tiefenmodalität im Vergleich zu RGB-Bildern, wo große Foundation Models den Stand der Technik definieren, bisher weniger intensiv erforscht worden.
In diesem Kontext wurde das DeFM-Modell (Depth Foundation Model) entwickelt, um diese Lücke zu schließen. Es handelt sich um ein selbstüberwachtes Foundation Model, das ausschließlich auf Tiefenbildern für Roboteranwendungen trainiert wurde. Das Hauptziel von DeFM ist es, geometrische und semantische Repräsentationen aus Tiefenbildern zu lernen, die sich auf verschiedene Umgebungen, Aufgaben und Sensoren verallgemeinern lassen.
Die Entwicklung von DeFM basiert auf einem DINO-ähnlichen (DINO: self-DIstillation with NO labels) Self-Distillation-Ansatz. Dieser Ansatz ermöglicht es dem Modell, aus einem großen, kuratierten Datensatz von 60 Millionen Tiefenbildern aussagekräftige Merkmale zu extrahieren, ohne dass explizite menschliche Annotationen erforderlich sind. Ein wesentliches Merkmal von DeFM ist die Einführung einer neuartigen Eingabenormalisierungsstrategie. Diese Strategie ist darauf ausgelegt, die metrische Genauigkeit über verschiedene Skalen hinweg zu bewahren, was für viele Roboteranwendungen von entscheidender Bedeutung ist, bei denen präzise Entfernungsangaben benötigt werden.
Ein weiterer Aspekt des DeFM-Projekts ist die Destillation des Modells in kompaktere Versionen. Diese kleineren Modelle sind speziell für den Einsatz in ressourcenbeschränkten Robotersystemen optimiert. Dies ist ein wichtiger Schritt, um die praktischen Anwendungen von Foundation Models in der Robotik zu erweitern, da viele Roboterplattformen nur begrenzte Rechenkapazitäten zur Verfügung haben.
Die Leistungsfähigkeit von DeFM wurde anhand einer Reihe von Benchmark-Tests bewertet, die verschiedene tiefenbasierte Robotikaufgaben umfassen, darunter Klassifizierung, Segmentierung, Navigation, Lokomotion und Manipulation. In diesen Tests erreichte DeFM nachweislich den Stand der Technik. Besonders hervorzuheben ist die starke Generalisierungsfähigkeit des Modells vom Simulationsumfeld in die reale Welt. Dies deutet darauf hin, dass die gelernten Repräsentationen robust genug sind, um mit den Komplexitäten und Variationen realer Szenarien umzugehen.
Die Entwickler von DeFM haben alle vortrainierten Modelle öffentlich zugänglich gemacht. Diese Modelle können direkt für tiefenbasiertes Roboter-Lernen eingesetzt werden, ohne dass eine aufgabenspezifische Feinabstimmung erforderlich ist. Dies erleichtert die Integration von DeFM in bestehende und zukünftige Roboterprojekte und könnte die Entwicklung neuer Anwendungen beschleunigen. Der Ansatz von DeFM, grundlegende Repräsentationen aus Tiefendaten zu lernen, könnte somit die Fähigkeit von Robotern, ihre Umgebung zu verstehen und mit ihr zu interagieren, signifikant verbessern.
Die Forschung im Bereich der Tiefenschätzung und 3D-Repräsentation für die Robotik hat in den letzten Jahren erhebliche Fortschritte gemacht. Traditionelle Methoden stützen sich oft auf Punktwolken, Voxel oder Signed Distance Functions (SDFs). Neuere neuronale Repräsentationen wie Neural Radiance Fields (NeRF) und 3D Gaussian Splatting (3DGS) sowie aufkommende Foundation Models erweitern diese Möglichkeiten. Während bestehende SLAM- und Lokalisierungssysteme vorwiegend auf spärlichen Repräsentationen aufbauen, wird erwartet, dass dichte Szenenrepräsentationen eine entscheidende Rolle für nachgelagerte Aufgaben wie Navigation und Hindernisvermeidung spielen werden. Neuronale Repräsentationen eignen sich zudem gut für die Integration von hochrangigen semantischen Merkmalen und sprachbasierten Prioren, was ein umfassenderes 3D-Szenenverständnis und eine verbesserte verkörperte Intelligenz ermöglicht.
Ein verwandter Ansatz, FOUNDER (Foundation Models grounded in World Models), integriert Foundation Models (FMs) mit World Models (WMs), um eine offene Aufgabenlösung in verkörperten Umgebungen zu ermöglichen. FOUNDER lernt eine Abbildungsfunktion, die FM-Repräsentationen im WM-Zustandsraum verankert, wodurch die physischen Zustände des Agenten im Weltsimulator aus externen Beobachtungen abgeleitet werden können. Dieser Ansatz ermöglicht das Lernen einer zielbedingten Strategie durch Imagination, wobei die abgebildete Aufgabe als Zielzustand dient. FOUNDER verwendet die vorhergesagte zeitliche Distanz zum Zielzustand als informatives Belohnungssignal und zeigt überlegene Leistungen bei verschiedenen visuellen Steuerungs-Benchmarks, insbesondere in Szenarien mit komplexen Beobachtungen oder Domain-Gaps.
Im Vergleich zu FOUNDER konzentriert sich DeFM spezifisch auf die Tiefenmodalität und die Extraktion robuster geometrischer und semantischer Repräsentationen aus Tiefenbildern. Während FOUNDER eine breitere Integration von FMs und WMs für die Aufgabenlösung anstrebt, bietet DeFM eine spezialisierte Lösung für die Tiefenwahrnehmung, die als Grundlage für viele Robotikaufgaben dienen kann. Die Stärke von DeFM liegt in seiner Fähigkeit, aus reinen Tiefendaten hochqualitative und generalisierbare Repräsentationen zu lernen, die für eine Vielzahl von Anwendungen in der Robotik ohne aufwändige Feinabstimmung direkt nutzbar sind.
Obwohl DeFM beeindruckende Ergebnisse liefert, bleiben Herausforderungen bestehen. Die Verfügbarkeit von qualitativ hochwertigen, großskaligen und variantenreichen Daten ist ein ständiges Anliegen. Aktuelle Methoden zur Datenerfassung, sei es durch Tiefensensoren oder synthetische Generierung, haben ihre Grenzen. Zukünftige Arbeiten könnten sich darauf konzentrieren, selbstüberwachte Techniken weiter zu verfeinern, um das Wissen aus großen Bild- und Videodaten besser auf die Tiefenschätzung zu übertragen, oder bessere Simulations- und Generierungsansätze zu entwickeln, die künstlerisch hochwertige synthetische Renderings und Tiefenpaare liefern, um die Generalisierungsfähigkeit zu steigern.
Ein weiterer wichtiger Aspekt ist die Konsistenz, sowohl räumlich als auch zeitlich. Bei der Tiefenschätzung aus Einzelbildern sind die aktuellen Methoden oft unzureichend, wenn es darum geht, Ergebnisse aus verschiedenen Zeitpunkten und Blickwinkeln derselben Szene zusammenzuführen. Dies ist besonders relevant für dynamische Szenen in der Robotik. Die Integration von DeFM mit fortgeschrittenen Methoden zur Modellierung dynamischer Umgebungen und zur Sicherstellung der Konsistenz über die Zeit hinweg stellt ein vielversprechendes Forschungsfeld dar.
Das DeFM-Modell stellt einen wichtigen Schritt in Richtung robusterer und autonomerer Robotiksysteme dar. Durch die Konzentration auf das Lernen grundlegender Repräsentationen aus Tiefenbildern bietet es eine effiziente und skalierbare Lösung für eine Vielzahl von Herausforderungen in der Roboterwahrnehmung. Die Verfügbarkeit der vortrainierten Modelle und die nachgewiesene Generalisierungsfähigkeit machen DeFM zu einem wertvollen Werkzeug für Forscher und Entwickler in der Robotik und darüber hinaus. Die kontinuierliche Verbesserung von Foundation Models für die Tiefenschätzung wird voraussichtlich zu immer ausgefeilteren und praktischeren Anwendungen in der Zukunft führen.
Bibliographie
- Patel, M., Frey, J., Mittal, M., Yang, F., Hansson, A., Bar, A., Cadena, C., Hutter, M. (2026). DeFM: Learning Foundation Representations from Depth for Robotics. arXiv preprint arXiv:2601.18923. - leggedrobotics. (n.d.). source code and trained models for DeFM (Depth Foundation Model). GitHub. Verfügbar unter: https://github.com/leggedrobotics/defm - Hugging Face. (2026, 28. Januar). Daily Papers. Verfügbar unter: https://huggingface.co/papers/date/2026-01-28 - Xu, Z., Zhou, H., Peng, S., Lin, H., Guo, H., Shao, J., Yang, P., Yang, Q., Miao, S., He, X., Wang, Y., Wang, Y., Hu, R., Liao, Y., Zhou, X., & Bao, H. (2025). Towards Depth Foundation Model: Recent Trends in Vision-Based Depth Estimation. arXiv preprint arXiv:2507.11540. - Wang, Y., Yu, R., Wan, S., Gan, L., & Zhan, D.-C. (2025). FOUNDER: Grounding Foundation Models in World Models for Open-Ended Embodied Decision Making. arXiv preprint arXiv:2507.12496. - Deng, T., Pan, Y., Yuan, S., Li, D., Wang, C., Li, M., Chen, L., Xie, L., Wang, D., Wang, J., Civera, J., Wang, H., & Chen, W. (2025). What Is The Best 3D Scene Representation for Robotics? From Geometric to Foundation Models. arXiv preprint arXiv:2512.03422. - Mazzaglia, P., Verbelen, T., Dhoedt, B., Courville, A., & Rajeswar, S. (2024). GenRL: Multimodal-foundation world models for generalization in embodied agents. arXiv preprint arXiv:2406.18043.Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen