Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Fähigkeit von Künstlicher Intelligenz, realistische 3D-Umgebungen zu synthetisieren, ist von fundamentaler Bedeutung für eine Vielzahl von Anwendungen, von der Robotik über virtuelle Realität bis hin zu Simulationen für autonomes Fahren. Aktuelle Fortschritte im Bereich der Large Language Models (LLMs) haben das Potenzial für die automatische Generierung von 3D-Szenen erheblich erweitert. Dennoch offenbaren sich bei näherer Betrachtung der generierten Szenen häufig signifikante Diskrepanzen in Bezug auf realistische räumliche Anordnungen und die korrekte Zuordnung von Objekteigenschaften. Diese Herausforderungen sind oft auf unzureichend detaillierte oder zu grobe Anweisungen zurückzuführen, die den Generierungsprozessen zugrunde liegen.
Die derzeitigen Ansätze zur 3D-Szenensynthese basieren häufig auf Anweisungen, die zwar eine allgemeine Vorstellung der gewünschten Umgebung vermitteln, jedoch nicht die feinkörnigen Details erfassen, die für eine physikalisch plausible und semantisch korrekte Szene erforderlich sind. Dies führt dazu, dass die generierten Umgebungen oft unrealistisch wirken und die Interaktion von verkörperten (embodied) KI-Agenten in solchen Umgebungen beeinträchtigen können. Wenn KI-Agenten in nicht-realistischen Umgebungen trainiert werden, können sie Vorannahmen und Verhaltensweisen erlernen, die sich erheblich von der realen Welt unterscheiden. Dies kann die Leistung dieser Agenten bei der späteren Bereitstellung in realen Szenarien erheblich mindern.
Um die Qualität der generierten 3D-Szenen zu verbessern und die Zuverlässigkeit von trainierten KI-Agenten zu gewährleisten, ist eine präzise und feinkörnige Bewertung der Übereinstimmung zwischen einer detaillierten Anweisung und der resultierenden Szene unerlässlich. Bisherige Evaluationsmethoden, wie beispielsweise CLIPScore oder andere Vision-Language Models (VLMs), zeigen hierbei oft Schwächen. Ihre Fähigkeit, ein tiefgreifendes Verständnis von 3D-Szenen zu entwickeln und insbesondere die korrekte Verankerung von Szenenkomponenten (grounding) zu überprüfen, ist begrenzt. Dies kann dazu führen, dass selbst bei scheinbar hohen Bewertungsmetriken die generierten Szenen in wichtigen Details fehlerhaft sind.
In diesem Kontext wurde das innovative Evaluationsframework LEGO-Eval entwickelt. Dieses Framework ist mit einer Reihe diversifizierter Tools ausgestattet, die speziell darauf ausgelegt sind, Szenenkomponenten explizit zu verankern und somit eine genauere Bewertung der Übereinstimmung zu ermöglichen. Im Gegensatz zu früheren Ansätzen, die sich auf ein globales oder oberflächliches Verständnis von Szenen beschränkten, fokussiert sich LEGO-Eval auf die feinkörnige Analyse einzelner Elemente und deren Beziehungen zueinander innerhalb der 3D-Umgebung.
Ergänzend zu LEGO-Eval wurde LEGO-Bench vorgestellt – ein neuer Benchmark, der detaillierte Anweisungen für die Generierung komplexer Layouts und Attribute von realen Umgebungen enthält. Dieser Benchmark wurde entwickelt, um die Fähigkeiten von 3D-Szenengenerierungsmethoden unter anspruchsvolleren und realitätsnäheren Bedingungen zu testen. Er umfasst Szenarien, die nicht nur die Anwesenheit bestimmter Objekte erfordern, sondern auch deren präzise Platzierung, Ausrichtung und Interaktion mit anderen Elementen der Szene.
Umfassende Experimente haben gezeigt, dass LEGO-Eval herkömmliche VLM-basierte Evaluationsmethoden, die oft als "VLM-as-a-judge" bezeichnet werden, deutlich übertrifft. Die Leistungssteigerung, gemessen am F1-Score für die Bewertung der Szenen-Anweisungs-Übereinstimmung, beträgt 0,41. Dies deutet darauf hin, dass LEGO-Eval in der Lage ist, die Qualität und Genauigkeit von 3D-Generierungen wesentlich zuverlässiger zu beurteilen.
Die Benchmarking-Ergebnisse mit LEGO-Bench offenbaren gleichzeitig erhebliche Limitationen der derzeitigen 3D-Generierungsmethoden. Selbst bei Verwendung der detaillierten Anweisungen von LEGO-Bench erreichten die besten Ansätze eine Erfolgsquote von maximal 10 % bei der Erstellung von Szenen, die vollständig mit den feinkörnigen Anweisungen übereinstimmen. Dies unterstreicht den enormen Forschungs- und Entwicklungsbedarf in diesem Bereich. Die Komplexität, realistische physikalische Eigenschaften, korrekte semantische Beziehungen und ästhetische Kohärenz in generierten 3D-Umgebungen zu erzielen, bleibt eine große Herausforderung.
Die Einführung von LEGO-Eval und LEGO-Bench markiert einen wichtigen Schritt in der Entwicklung von Methoden zur 3D-Szenengenerierung. Durch die Bereitstellung eines robusteren und feinkörnigeren Evaluationsrahmens können Forscher und Entwickler die Schwachstellen bestehender Modelle präziser identifizieren und gezielter an deren Verbesserung arbeiten. Dies ist entscheidend, um die Lücke zwischen synthetischen und realen Umgebungen zu schließen und somit die Grundlage für die Entwicklung leistungsfähigerer und zuverlässigerer verkörperter KI-Agenten zu schaffen.
Die Notwendigkeit, Werkzeuge zur expliziten Verankerung von Szenenkomponenten zu nutzen, ist ein klares Signal dafür, dass zukünftige Generierungsmodelle ein tieferes Verständnis der 3D-Geometrie und Semantik integrieren müssen. Dies könnte die Entwicklung neuer Architekturen und Trainingsstrategien vorantreiben, die über rein visuelle Merkmale hinausgehen und ein umfassenderes Weltmodell aufbauen.
Die feinkörnige Evaluation von 3D-generierten Umgebungen ist ein kritischer Engpass für den Fortschritt in der KI. Mit LEGO-Eval und LEGO-Bench steht der Forschungsgemeinschaft nun ein leistungsfähiges Instrumentarium zur Verfügung, um die Qualität synthetischer Welten präziser zu messen und die Entwicklung von 3D-Szenengenerierungsmethoden voranzutreiben. Die Ergebnisse zeigen deutlich, dass trotz beeindruckender Fortschritte noch erhebliche Anstrengungen erforderlich sind, um 3D-Umgebungen zu schaffen, die den komplexen Anforderungen realer Szenarien gerecht werden. Dies wird nicht nur die Leistungsfähigkeit von KI-Agenten in virtuellen und realen Umgebungen verbessern, sondern auch neue Möglichkeiten für interaktive und immersive Anwendungen eröffnen.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen