Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Fähigkeit von Künstlichen Intelligenzen, räumliche Zusammenhänge zu verstehen und darauf basierend zu agieren, stellt eine zentrale Herausforderung im Bereich der Embodied AI dar. Insbesondere in komplexen 3D-Umgebungen, in denen relevante Informationen über verschiedene Blickwinkel verteilt oder teilweise verdeckt sein können, stoßen herkömmliche Vision-Language-Modelle (VLMs) oft an ihre Grenzen. Eine innovative Entwicklung, das sogenannte Chain-of-View (CoV) Prompting, verspricht hier Abhilfe und bietet einen neuartigen Ansatz zur Verbesserung der räumlichen Schlussfolgerung.
Embodied Question Answering (EQA) in 3D-Umgebungen erfordert von VLMs die Fähigkeit, einen umfassenden Kontext aus verschiedenen Perspektiven zu erfassen. Die meisten aktuellen VLMs sind jedoch auf eine feste und begrenzte Anzahl von Eingabeansichten beschränkt. Dies limitiert ihre Möglichkeiten, während der Inferenz relevante Kontextinformationen zu sammeln, und erschwert somit komplexes räumliches Denken. Die Notwendigkeit, Informationen aus dynamischen, sich verändernden Ansichten zu integrieren und dabei Verdeckungen zu berücksichtigen, ist ein entscheidender Faktor für die Leistungsfähigkeit von KI-Systemen in realen Anwendungen.
Das Chain-of-View (CoV) Prompting ist ein kürzlich vorgestelltes, trainingsfreies und testzeitbasiertes Reasoning-Framework. Es wurde entwickelt, um VLMs in aktive Viewpoint-Reasoners zu transformieren. Der Kernansatz von CoV liegt in einem grob-zu-fein gestuften Explorationsprozess, der es dem Modell ermöglicht, dynamisch relevante Ansichten zu identifizieren und zu nutzen.
Das CoV-Framework operiert in zwei Hauptphasen:
Die Evaluation von CoV auf OpenEQA unter Verwendung von vier führenden VLMs zeigte beeindruckende Ergebnisse. Im Durchschnitt konnte eine Leistungssteigerung von +11,56 % im LLM-Match erzielt werden, wobei der maximale Gewinn bei +13,62 % auf Qwen3-VL-Flash lag. Darüber hinaus demonstrierte CoV eine Skalierbarkeit während der Testphase: Eine Erhöhung des minimalen Aktionsbudgets führte zu einer zusätzlichen durchschnittlichen Verbesserung von +2,51 %, mit einem Spitzenwert von +3,73 % bei Gemini-2.5-Flash. Auch auf den Datensätzen ScanQA und SQA3D zeigte CoV eine starke Performance (z.B. 116 CIDEr / 31.9 EM@1 auf ScanQA und 51.1 EM@1 auf SQA3D).
Diese Ergebnisse deuten darauf hin, dass die Kombination aus frageorientierter Ansichtsauswahl und einer offenen Ansichtssuche eine effektive und modellagnostische Strategie zur Verbesserung des räumlichen Denkens in 3D-EQA-Szenarien darstellt, ohne dass zusätzliches Training erforderlich ist.
Für Unternehmen im B2B-Sektor, die auf präzise und effiziente KI-Lösungen angewiesen sind, bietet CoV Prompting erhebliche Vorteile:
Im Kontext des räumlichen Denkens für große Sprachmodelle (LLMs) gibt es verschiedene Ansätze. Das Chain-of-Symbol (COS) Prompting, ein verwandtes Konzept, konzentriert sich darauf, komplexe natürliche Sprachbeschreibungen von Umgebungen in symbolische Darstellungen zu überführen, um das Reasoning zu vereinfachen. COS hat gezeigt, dass es die Genauigkeit in Planungsaufgaben signifikant verbessern und gleichzeitig den Token-Verbrauch reduzieren kann, was zu einer erhöhten Effizienz führt.
Ein weiterer Ansatz ist SpatialCoT, der die räumlichen Reasoning-Fähigkeiten von VLMs durch Koordinatenausrichtung und Chain-of-Thought-Ansätze verbessern soll. SpatialCoT integriert die Ausrichtung von Vision-Language-Inputs mit räumlichen Koordinaten und nutzt die Reasoning-Fähigkeiten von Sprachmodellen für fortgeschrittenes räumliches Denken.
Während diese Methoden unterschiedliche Schwerpunkte setzen – COS auf die Transformation von natürlicher Sprache in Symbole und SpatialCoT auf die Koordinatenausrichtung mit VLMs – ergänzt CoV diese Ansätze durch seinen Fokus auf die dynamische, aktive Erkundung und Auswahl von Ansichten in 3D-Umgebungen. Die Kombination dieser Techniken könnte zukünftig noch leistungsfähigere und robustere KI-Systeme für räumliches Reasoning ermöglichen.
Das Chain-of-View (CoV) Prompting stellt einen vielversprechenden Fortschritt in der Entwicklung von KI-Systemen dar, die in komplexen 3D-Umgebungen räumliche Schlussfolgerungen ziehen müssen. Durch seinen innovativen Ansatz der aktiven Ansichtsauswahl und -anpassung ermöglicht es VLMs, den Kontext effektiver zu erfassen und zu verarbeiten. Die demonstrierten Leistungssteigerungen und die trainingsfreie Natur der Methode eröffnen neue Möglichkeiten für die Implementierung in einer Vielzahl von B2B-Anwendungen, die ein präzises räumliches Verständnis erfordern. Die kontinuierliche Forschung in diesem Bereich, einschließlich der Kombination mit anderen Prompting-Strategien, wird voraussichtlich zu noch leistungsfähigeren und vielseitigeren KI-Lösungen führen.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen