Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Fähigkeit, dreidimensionale Szenen nicht nur geometrisch präzise darzustellen, sondern auch semantisch zu verstehen, ist ein zentrales Forschungsfeld in der Computer Vision. Besonders im Kontext von Anwendungen wie Robotik, autonomer Navigation und Augmented Reality gewinnt das sogenannte Open-Vocabulary 3D-Szenenverständnis zunehmend an Bedeutung. Dieses ermöglicht es Systemen, freie Sprachabfragen zu interpretieren und Objekte in einer 3D-Umgebung ohne vorherige Beschränkung auf feste Kategorien zu identifizieren und zu lokalisieren. Eine neue Entwicklung in diesem Bereich ist das Framework ProFuse, das eine effiziente Methode zur Integration von Kreuzansichts-Kontextfusion in 3D Gaussian Splatting (3DGS) vorstellt.
Die 3D Gaussian Splatting-Technologie hat sich als leistungsstarke Methode zur Darstellung von 3D-Szenen etabliert. Sie repräsentiert eine Szene als eine Sammlung von anisotropen Gaußschen Verteilungen, was eine fotorealistische und Echtzeit-Wiedergabe ermöglicht. Traditionelle Ansätze zur Vermittlung semantischer Informationen in 3DGS basieren oft auf der 2D-Vision-Sprachdestillation. Dabei werden während des Trainings Bilder gerendert und Gaußsche Merkmale optimiert, um 2D-Vorhersagen abzugleichen. Dieser Ansatz kann zwar Open-Vocabulary-Wissen in 3D übertragen, birgt jedoch strukturelle Probleme:
Diese Einschränkungen haben zur Entwicklung von Methoden geführt, die direkt im 3D-Gaußschen Raum operieren, indem sie jedem Gaußschen Element Sprachmerkmale zuweisen. Die direkte Registrierung von Sprachmerkmalen in Gaußschen Elementen unter Verwendung ihrer Sichtbarkeit entlang jedes Betrachtungsstrahls hat sich hierbei als effizient erwiesen. Dennoch ist das Paradigma der direkten Registrierung noch in einem frühen Stadium, und es besteht Bedarf an einer Stärkung des Frameworks durch die Integration semantischer Konsistenz in die 3DGS-Repräsentation, ohne zusätzliche rendierungsüberwachte Trainingsschritte.
ProFuse zielt darauf ab, die semantische Kohärenz im 3D Gaussian Splatting zu verbessern, indem es zwei wesentliche Faktoren berücksichtigt: die konsistente Darstellung über verschiedene Ansichten (Cross-View Consistency) und die Kohäsion innerhalb einzelner Masken (Intra-Mask Cohesion). Im Gegensatz zu früheren Methoden, die diese Eigenschaften durch rendierungsüberwachtes Training auf 2D-Feature-Maps oder explizite Feature-Lernziele fördern, integriert ProFuse diese semantische Konsistenz direkt in das Registrierungs-Framework.
Ein Kernstück von ProFuse ist eine Vorregistrierungsphase, die durch dichte Mehrfachansichts-Korrespondenz angetrieben wird. Dieser Schritt initialisiert die 3D-Gaußsche Szene mit präziser Geometrie, wodurch die Darstellung die Szene umfassend abdecken kann, ohne auf iterative Verdichtung angewiesen zu sein. Gleichzeitig wird dasselbe Korrespondenzsignal genutzt, um Beobachtungen desselben Objekts aus verschiedenen Blickwinkeln zu verbinden. Diese werden zu konsistenten, objektbezogenen Gruppen zusammengefasst, die als "3D Context Proposals" bezeichnet werden. Jedes dieser Proposals kodiert ein Objekt, wie es über verschiedene Ansichten erscheint, und bietet eine stabile Quelle für Semantik, die über die Blickwinkel hinweg ausgerichtet ist.
Während der Merkmalsregistrierung enthält jedes Proposal ein globales Sprachmerkmal, das aus seinen Maskeneinbettungen berechnet wird. Dieses Merkmal wird dann auf die Gaußschen Elemente fusioniert, um eine sprachliche Kohärenz pro Primitiv über alle Ansichten hinweg zu gewährleisten. Bemerkenswert ist, dass ProFuse keine gradientenbasierte Feinabstimmung oder Backpropagation von Sprachverlusten erfordert. Die semantische Fusion erfolgt ohne zusätzliche Optimierung über die Standardrekonstruktion hinaus. Dies ermöglicht es dem Modell, die geometrische Verfeinerung ohne Verdichtung beizubehalten.
Die Wirksamkeit von ProFuse wurde in Experimenten zu verschiedenen Open-Vocabulary 3D-Wahrnehmungsaufgaben demonstriert, darunter die 3D-Objektauswahl und das Point-Cloud-Verständnis. ProFuse erzielte dabei nicht nur überzeugende Ergebnisse, sondern zeigte auch eine bemerkenswerte Effizienz. Die semantische Anhaftung konnte in etwa fünf Minuten pro Szene abgeschlossen werden, was doppelt so schnell ist wie der aktuelle Stand der Technik. Dies wird durch die korrespondenzgeführte Initialisierung erreicht, die ein kompaktes Gaußsches Set ohne Verdichtung erzeugt, sowie durch die leichtgewichtige, proposal-basierte Merkmalsfusion.
Auf dem LERF-OVS-Datensatz zeigte ProFuse eine präzisere Isolierung der abgefragten Objekte mit deutlich weniger Hintergrundaktivierungen. Dies führte zu saubereren und semantisch genaueren Auswahlen im Vergleich zu bestehenden Methoden, die oft streifenartige Überlagerungen in benachbarte Bereiche oder texturierte Oberflächen aufwiesen.
Auch beim Open-Vocabulary Point-Cloud-Verständnis auf dem ScanNet-Datensatz übertraf ProFuse die etablierten Baselines. Die Methode produzierte sauberere Regionen mit schärferen Grenzen und weniger "Flecken", was auf eine höhere Regionenkonsistenz und eine bessere Behandlung von Objekt-Wand-Kontakten hindeutet.
Die Trainingszeit ist ein entscheidender Faktor für die praktische Anwendbarkeit von 3D-Szenenverständnissystemen. Während rendierungsüberwachte Destillationsmethoden Stunden an Rechenzeit erfordern, reduziert ProFuse den Aufwand für die semantische Anhaftung auf nur wenige Minuten pro Szene. Dies ist hauptsächlich auf die kompakte Geometrie aus der korrespondenzgeführten Initialisierung und die effiziente proposal-basierte Merkmalsfusion zurückzuführen.
ProFuse stellt einen bedeutenden Fortschritt im Bereich des Open-Vocabulary 3D-Szenenverständnisses dar. Durch die effiziente Integration von Kreuzansichts-Kontextfusion in 3D Gaussian Splatting ermöglicht es das Framework, semantische Konsistenz und Kohärenz ohne die Notwendigkeit eines rendierungsüberwachten Trainings zu erreichen. Die Methode zeichnet sich durch hohe Leistung bei der 3D-Objektauswahl und dem Point-Cloud-Verständnis sowie durch eine bemerkenswerte Trainingseffizienz aus. Diese Entwicklungen sind von großer Relevanz für B2B-Anwendungen, die ein schnelles und genaues Verständnis komplexer 3D-Umgebungen erfordern, wie etwa in der Robotik, der Entwicklung von Augmented-Reality-Anwendungen oder der industriellen Inspektion.
Die Bestrebungen, 3D-Szenen nicht nur visuell darzustellen, sondern auch inhaltlich zu erfassen, sind ein zentrales Thema der aktuellen Forschung. ProFuse trägt dazu bei, diese Lücke zu schließen und das Potenzial von 3D Gaussian Splatting für eine breitere Palette von Anwendungen zu erschließen.
Bibliography: - Chiou, Yen-Jen; Cheng, Wei-Tse; Yang, Yuan-Fu (2026): ProFuse: Efficient Cross-View Context Fusion for Open-Vocabulary 3D Gaussian Splatting. In: arXiv preprint arXiv:2601.04754. - Hugging Face (2026): ProFuse: Efficient Cross-View Context Fusion for Open-Vocabulary 3D Gaussian Splatting. Online verfügbar unter https://huggingface.co/papers/2601.04754. - Chiou, Yen-Jen; Cheng, Wei-Tse; Yang, Yuan-Fu (2026): Efficient Cross-View Context Fusion for Open-Vocabulary 3D Gaussian Splatting. In: arXiv preprint arXiv:2601.04754. Online verfügbar unter https://arxiv.org/html/2601.04754v1. - Huang, Tianyu (2025): OpenInsGaussian: Open-vocabulary Instance Gaussian Segmentation with Context-aware Cross-view Fusion. In: ICCVW. Online verfügbar unter https://openaccess.thecvf.com/content/ICCV2025W/Findings/papers/Huang_OpenInsGaussian_Open-vocabulary_Instance_Gaussian_Segmentation_with_Context-aware_Cross-view_Fusion_ICCVW_2025_paper.pdf. - Huang, Tianyu (2025): OpenInsGaussian: Open-vocabulary Instance Gaussian Segmentation with Context-aware Cross-view Fusion. In: arXiv e-prints. Online verfügbar unter https://ui.adsabs.harvard.edu/abs/2025arXiv251018253H/abstract. - MrNeRF (o. J.): MrNeRF's Awesome-3D-Gaussian-Splatting-Paper-List. Online verfügbar unter https://mrnerf.github.io/awesome-3D-gaussian-splatting/. - Yang, Dianyi et al. (2025): OpenGS-Fusion: Open-Vocabulary Dense Mapping with Hybrid 3D Gaussian Splatting for Refined Object-Level Understanding. In: arXiv preprint arXiv:2508.01150. Online verfügbar unter https://arxiv.org/abs/2508.01150. - Arafa, Abdalla; Stricker, Didier (2025): Beyond Averages: Open-Vocabulary 3D Scene Understanding with Gaussian Splatting and Bag of Embeddings. In: arXiv preprint arXiv:2509.12938. Online verfügbar unter https://arxiv.org/abs/2509.12938. - Wang, Yiming et al. (2025): Learning Efficient Fuse-and-Refine for Feed-Forward 3D Gaussian Splatting. In: arXiv preprint arXiv:2503.14698. Online verfügbar unter https://arxiv.org/abs/2503.14698. - Peng, Qucheng et al. (2025): 3D Vision-Language Gaussian Splatting. In: arXiv preprint arXiv:2410.07577. Online verfügbar unter https://arxiv.org/abs/2410.07577.Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen