Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Entwicklung interaktiver 3D-Gaming-Welten, die sowohl präzise auf Benutzeraktionen reagieren als auch über längere Zeiträume hinweg eine konsistente und visuell ansprechende Umgebung bieten, stellt eine signifikante Herausforderung in der Forschung dar. Jüngste Fortschritte im Bereich der Video-Diffusion-Transformer haben zwar die Generierung dynamischer Umgebungen ermöglicht, doch die Aufrechterhaltung präziser Kontrolle und 3D-Konsistenz bleibt oft unzureichend. Eine neue Forschungsarbeit adressiert diese Limitationen durch die Einführung eines innovativen Ansatzes, der die Kameraposition als zentrale geometrische Repräsentation nutzt.
Das vorgestellte Modell, "WorldCam", zielt darauf ab, diese Lücke zu schließen. Es ermöglicht die Erstellung interaktiver 3D-Gaming-Welten, die sich durch präzise Aktionskontrolle, hohe visuelle Qualität über lange Zeiträume und robuste räumliche 3D-Konsistenz auszeichnen. Im Kern dieses Ansatzes steht die Konzeption der Kameraposition als vereinheitlichende geometrische Repräsentation. Diese dient dazu, sowohl die unmittelbare Steuerung von Aktionen als auch die langfristige 3D-Konsistenz gemeinsam zu verankern.
Bisherige Modelle, die interaktive Gaming-Welten generieren, behandeln Benutzeraktionen oft als abstrakte Steuersignale. Dies vernachlässigt die intrinsische geometrische Verbindung zwischen Aktionen und der 3D-Welt. Aktionen führen zu relativen Kamerabewegungen, die sich zu einer globalen Kameraposition innerhalb der 3D-Welt summieren. Wenn diese geometrische Kopplung nicht explizit berücksichtigt wird, kann dies zu ungenauen Kamerabewegungen und inkonsistenter 3D-Geometrie führen. Selbst Ansätze, die Kamerabewegungen zur Generierung kurzer Videos nutzen, scheitern oft an der Modellierung aktionsgesteuerter Kontrolle und der Generalisierung auf längere Zeiträume.
Die Innovation von "WorldCam" liegt in der expliziten Nutzung der Kameraposition. Hierfür werden Benutzeraktionen in einem physikbasierten, kontinuierlichen Aktionsraum definiert und über die Lie-Algebra in präzise 6-DoF-Kamerapositionen (sechs Freiheitsgrade) übersetzt. Diese Kamerapositionen werden dann über einen Kamera-Embedder in das generative Modell integriert, um eine genaue Ausrichtung der Aktionen zu gewährleisten. Darüber hinaus werden globale Kamerapositionen als räumliche Indizes verwendet, um relevante frühere Beobachtungen abzurufen. Dies ermöglicht eine geometrisch konsistente Wiederannäherung an bereits besuchte Orte während der Navigation über längere Zeiträume.
Die Architektur von "WorldCam" basiert auf einem Video-Diffusion-Transformer (DiT). Das Modell wandelt Benutzeraktionen in Kamerapositionen in der Lie-Algebra um und konditioniert einen progressiven autoregressiven Video-Transformer auf diese Kamerapositionen für eine präzise Aktionskontrolle. Abgerufene Langzeitspeicher-Latente und Kamerapositionen aus einem Speicherpool gewährleisten die 3D-Konsistenz der generierten Welt, während ein Kurzzeitspeicher mit einem "Attention Sink" die Generierung über lange Zeiträume stabilisiert.
Ein zentraler Aspekt ist die Umwandlung von Benutzeraktionen in physikalisch konsistente Kamerabewegungen. Anstatt rohe Aktionssignale direkt zu injizieren oder lineare Näherungen zu verwenden, die Translation und Rotation entkoppeln, definiert "WorldCam" den Aktionsraum in der Lie-Algebra. Dies ermöglicht eine gemeinsame Integration von linearen und Winkelgeschwindigkeiten, wodurch geometrisch präzise Kameratrajektorien auch bei komplexen, gekoppelten Bewegungen erzielt werden.
Die Kameraposition dient nicht nur der Aktionssteuerung, sondern auch als geometrischer Anker für die 3D-Konsistenz. Ein Langzeitspeicherpool speichert zuvor generierte Latente zusammen mit ihren globalen Kamerapositionen. Durch einen hierarchischen Abrufmechanismus, der auf der Ähnlichkeit von Kamerapositionen basiert, kann das Modell relevante frühere Beobachtungen identifizieren und nutzen, um die räumliche Kohärenz beim Wiederbesuchen von Orten oder Blickwinkeln zu gewährleisten.
Um die Generierung über lange Zeiträume zu unterstützen, verwendet "WorldCam" eine progressive Rauschplanung pro Frame und einen "Attention Sink"-Mechanismus. Dies hilft, Fehlerakkumulation zu reduzieren und die visuelle Qualität und Konsistenz über längere Sequenzen hinweg zu erhalten. Kurzzeitspeicher-Latente tragen zusätzlich zur Stabilität bei.
Ein wesentliches Hindernis bei der Entwicklung interaktiver Gaming-Weltmodelle war bisher das Fehlen großer, hochauflösender Videodatensätze, die das Verhalten menschlicher Spieler realistisch abbilden. Um dieser Herausforderung zu begegnen, wurde "WorldCam-50h" eingeführt. Dieser umfangreiche Datensatz umfasst 3.000 Minuten authentischen menschlichen Gameplays, das mit Kameratrajektorien und textuellen Beschreibungen annotiert ist. Der Datensatz wurde aus kommerziellen und quelloffenen Spielen wie Counter-Strike, Xonotic und Unvanquished gesammelt, um vielfältige Spielerverhalten und komplexe Szenarien abzudecken.
Umfassende Experimente zeigen, dass der "WorldCam"-Ansatz bestehende interaktive Gaming-Weltmodelle in Bezug auf Aktionskontrollierbarkeit, visuelle Qualität über lange Zeiträume und 3D-räumliche Konsistenz übertrifft. Quantitative Vergleiche mit Modellen wie Yume, Matrix-Game 2.0 und GameCraft demonstrieren signifikante Verbesserungen. Beispielsweise erreicht "WorldCam" die niedrigsten Fehlerwerte bei allen Positionsmetriken, mit einer Verbesserung der RPEcamera um 16,3% gegenüber dem zweitbesten Modell GameCraft. Auch die visuelle Qualität und 3D-Konsistenz zeigen deutliche Vorteile, was durch hohe VBench-Durchschnittswerte und verbesserte Metriken wie PSNR und LPIPS belegt wird.
Zusätzlich zu quantitativen Metriken wurde eine Benutzerstudie durchgeführt, bei der 30 Teilnehmer die Modelle in Bezug auf Aktionskontrollierbarkeit, visuelle Qualität und 3D-Konsistenz bewerteten. Die Ergebnisse der menschlichen Evaluation bestätigen die Überlegenheit von "WorldCam", das in allen drei Kategorien deutlich höhere Bewertungen erhielt als die Vergleichsmodelle.
Für Unternehmen im B2B-Sektor, insbesondere in Bereichen wie Gaming, Simulation und virtuelle Realität, bietet die Technologie hinter "WorldCam" vielversprechende Perspektiven. Die präzise Aktionskontrolle und die langfristige 3D-Konsistenz ermöglichen die Entwicklung immersiverer und realistischerer virtueller Umgebungen. Dies könnte Anwendungen in der Ausbildung und Schulung, der Produktvisualisierung oder der Erstellung komplexer digitaler Zwillinge finden. Die Fähigkeit, authentisches menschliches Gameplay zu nutzen und in die Modellentwicklung zu integrieren, könnte zudem zur Schaffung von Szenarien führen, die besser auf menschliche Interaktion und Bedürfnisse zugeschnitten sind.
Die Forschung hinter "WorldCam" stellt einen bedeutenden Schritt in Richtung der Entwicklung fortschrittlicher interaktiver 3D-Gaming-Welten dar. Die explizite Nutzung der Kameraposition als vereinheitlichende geometrische Repräsentation eröffnet neue Möglichkeiten zur Verbesserung von Aktionskontrolle und 3D-Konsistenz. Zukünftige Arbeiten könnten die Effizienz der Inferenz weiter optimieren und die Integration weiterer komplexer physischer Dynamiken und Multi-Agenten-Interaktionen untersuchen, um die generierten Welten noch realistischer und vielseitiger zu gestalten.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen