Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Künstliche Intelligenz (KI) hat in den letzten Jahren beachtliche Fortschritte im Bereich der Bild- und Videoanalyse erzielt. Große multimodale Modelle (LMMs) können Objekte erkennen, Szenen beschreiben und sogar Fragen zu Bildern beantworten. Doch wie gut sind diese Modelle tatsächlich im dreidimensionalen Raum? Können sie die Position, Ausrichtung und räumliche Beziehungen von Objekten in einer 3D-Szene verstehen und interpretieren? Um diese Fähigkeiten zu bewerten, wurde 3DSRBench entwickelt, ein neuer umfassender Benchmark für 3D-räumliches Denken.
3DSRBench besteht aus 2.772 manuell annotierten Frage-Antwort-Paaren zu Bildern, die in zwölf Fragetypen unterteilt sind. Diese Fragen zielen darauf ab, verschiedene Aspekte des räumlichen Denkens zu testen, darunter die Höhe, Orientierung und Position von Objekten sowie das Verständnis von Beziehungen zwischen mehreren Objekten. Um die Robustheit der Ergebnisse zu gewährleisten, wurde die Datenverteilung sorgfältig ausbalanciert und eine neuartige FlipEval-Strategie angewendet. Diese Strategie beinhaltet das Spiegeln von Bildern und die entsprechende Anpassung der Fragen, um sicherzustellen, dass die Modelle nicht auf bestimmte Bildmerkmale fixiert sind, sondern tatsächlich räumliche Beziehungen verstehen.
Ein besonderes Merkmal von 3DSRBench sind zwei Teilmengen, die Fragen zum räumlichen Denken auf Bildpaaren mit gemeinsamen und ungewöhnlichen Blickwinkeln enthalten. Dies ermöglicht es, die Robustheit der Modelle gegenüber unterschiedlichen Perspektiven zu untersuchen. Ein wichtiger Aspekt für Anwendungen wie autonomes Fahren oder Robotik, wo die Kameraperspektive ständig wechselt.
Erste Tests mit verschiedenen öffentlich zugänglichen und proprietären LMMs haben gezeigt, dass die Modelle in verschiedenen Aspekten des 3D-Szenenverständnisses noch Schwächen aufweisen. So haben sie beispielsweise Schwierigkeiten, Höhenunterschiede, Objektorientierungen und die relative Position von Objekten zueinander präzise zu erfassen. Auch bei Bildern mit ungewöhnlichen Kameraperspektiven sinkt die Leistung der Modelle deutlich. Diese Ergebnisse unterstreichen die Notwendigkeit weiterer Forschung und Entwicklung im Bereich des 3D-räumlichen Denkens für KI-Modelle.
3DSRBench bietet wertvolle Einblicke in die aktuellen Fähigkeiten und Grenzen von LMMs im 3D-Raum. Der Benchmark liefert eine Grundlage für die Entwicklung und Bewertung neuer Modelle mit verbessertem räumlichen Verständnis. Dies ist essentiell für Fortschritte in Anwendungsbereichen wie autonomes Fahren, Robotik, Augmented Reality (AR) und Virtual Reality (VR), die ein tiefes Verständnis der 3D-Welt erfordern. 3DSRBench trägt dazu bei, die Lücke zwischen menschlicher und maschineller Wahrnehmung im dreidimensionalen Raum zu schließen und ebnet den Weg für leistungsfähigere und robustere KI-Systeme.
Für Mindverse, ein deutsches Unternehmen, das sich auf die Entwicklung von KI-Lösungen spezialisiert hat, sind diese Erkenntnisse von besonderem Interesse. Mindverse bietet eine All-in-One-Plattform für KI-Text, -Inhalte, -Bilder und -Recherche und entwickelt maßgeschneiderte Lösungen wie Chatbots, Voicebots, KI-Suchmaschinen und Wissenssysteme. Das Verständnis von 3D-Szenen ist ein wichtiger Baustein für die nächste Generation intelligenter Systeme und eröffnet neue Möglichkeiten für innovative Anwendungen in verschiedenen Branchen.
Bibliographie: https://beckschen.github.io/ https://arxiv.org/abs/2406.13246 https://openreview.net/forum?id=2seVGyWZOX https://www.ijcai.org/proceedings/2024/0701.pdf https://paperswithcode.com/task/spatial-reasoning https://spatial-vlm.github.io/ https://aclanthology.org/2021.naacl-main.364.pdf https://ojs.aaai.org/index.php/AAAI/article/view/29811/31406 https://arxiv.org/abs/2204.08292Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen