KI für Ihr Unternehmen – Jetzt Demo buchen

Visuelle Generierung und menschenähnliches Denken in multimodalen KI-Modellen

Kategorien:
No items found.
Freigegeben:
January 28, 2026

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

1
🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

2
🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

3
⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

4
🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

5
👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Inhaltsverzeichnis

    mindverse studio – Ihre Plattform für digitale Effizienz

    Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.
    Mehr über Mindverse Studio erfahren

    Das Wichtigste in Kürze

    • Forschung zeigt, dass visuelle Generierung in multimodalen KI-Modellen das menschenähnliche Denken, insbesondere bei Aufgaben in der physischen Welt, erheblich verbessern kann.
    • Die "Visual Superiority Hypothesis" besagt, dass visuelle Modelle für bestimmte Aufgaben überlegen sind, da sie reichhaltigere Informationen und besseres Vorwissen bieten als rein verbale Modelle.
    • Ein neues Evaluations-Framework, VisWorld-Eval, wurde entwickelt, um die Vorteile visueller Weltenmodelle in Bezug auf Weltrekonstruktion und Weltsimulation zu messen.
    • Experimente mit Unified Multimodal Models (UMMs) zeigen, dass interaktive visuell-verbale Denkketten (CoT) bei visuell geprägten Aufgaben deutlich besser abschneiden.
    • Rein verbale Ansätze stoßen bei komplexen räumlichen und physikalischen Aufgaben an ihre Grenzen, während visuelle Generierung eine präzisere und informationsreichere Darstellung ermöglicht.
    • Für einfache Aufgaben, wie bestimmte Labyrinth-Rätsel, ist visuelle Modellierung nicht zwingend vorteilhaft, da implizite verbale Modelle ausreichen können.
    • Die Studie unterstreicht das Potenzial multimodaler Weltenmodelle für die Entwicklung leistungsfähigerer, menschenähnlicher KI-Systeme.

    Als Senior Specialist Journalist und Analyst für Mindverse ist es unsere Aufgabe, komplexe technologische Entwicklungen präzise und verständlich für Sie aufzubereiten. Die jüngsten Fortschritte im Bereich der Künstlichen Intelligenz (KI), insbesondere im Hinblick auf multimodale Modelle, eröffnen neue Perspektiven für das menschenähnliche Denken. Ein aktueller Forschungsbeitrag beleuchtet die Rolle der visuellen Generierung bei der Freisetzung dieser Fähigkeiten in KI-Systemen.

    Die Evolution des Denkens in KI-Modellen

    Die menschliche Kognition basiert auf der Konstruktion interner Modelle der Welt, die es uns ermöglichen, Konzepte zu manipulieren und zu schlussfolgern. Aktuelle KI-Systeme, insbesondere große Sprachmodelle (LLMs) mit sogenannten "Chain-of-Thought" (CoT)-Fähigkeiten, haben beeindruckende Leistungen in formalen und abstrakten Bereichen wie Mathematik und Programmierung erzielt. Diese Systeme stützen sich jedoch überwiegend auf verbales Denken. Bei Aufgaben, die physikalisches und räumliches Verständnis erfordern, bleiben sie hinter menschlichen Fähigkeiten zurück. Hier setzt die Entwicklung von Unified Multimodal Models (UMMs) an, die sowohl verbale als auch visuelle Inhalte generieren können.

    Die Integration visueller Generierungsfähigkeiten in multimodale Modelle wirft die Frage auf, inwiefern dies das Denken der KI verbessern und menschlichen kognitiven Prozessen näherbringen kann. Die vorliegende Arbeit, die wir hier analysieren, bietet eine erste systematische Untersuchung dieses Phänomens aus der Perspektive von Weltmodellen.

    Die "Visual Superiority Hypothesis"

    Der Kern der Untersuchung ist die "Visual Superiority Hypothesis". Sie besagt, dass für bestimmte Aufgaben, insbesondere solche, die in der physikalischen Welt verankert sind, die visuelle Generierung natürlicher als Weltmodell dient. Rein verbale Weltmodelle stoßen demnach an Grenzen, die sich aus Repräsentationsbeschränkungen oder unzureichendem Vorwissen ergeben.

    Informationsgehalt und Vorwissen

    Die Hypothese begründet sich auf zwei Hauptaspekten:

    • Informationsgehalt: Während verbale und symbolische Repräsentationen hochgradig abstrakte semantische Informationen erfassen, leiden sie oft unter Mehrdeutigkeiten und repräsentativen Engpässen. Visuelle Beobachtungen hingegen sind konkreter und informationsreicher. Sie kodieren direkt physikalische Eigenschaften wie Bewegung und räumliche Beziehungen, was ein präzises, detailliertes Verständnis der komplexen realen Welt ermöglicht, insbesondere bei räumlichen und physikalischen Aufgaben.
    • Vorwissen: Visuelles Weltwissen ergänzt symbolisches Wissen auf natürliche Weise. Menschen und Tiere erwerben einen Großteil dieses Wissens (z. B. physikalische Interaktionen und räumliche Transformationen) durch Wahrnehmung, weitgehend unabhängig von Sprache. Dies legt nahe, dass verschiedene Aspekte des Weltwissens in unterschiedlichen Datenmodalitäten konzentriert sind, und das Lernen aus großem generativen Modellieren visueller Daten kann die effektive Wissenslandschaft für multimodales Denken erweitern.

    Formulierung von Weltenmodellen und Denken

    Um die Vorteile der visuellen Generierung zu analysieren, formalisiert die Studie interne Weltenmodelle als eine zentrale Komponente des CoT-Denkens. Dabei werden zwei grundlegende Fähigkeiten von Weltenmodellen unterschieden:

    • Weltrekonstruktion: Die Fähigkeit, aus partiellen Beobachtungen eine vollständige Struktur abzuleiten und neue Ansichten zu synthetisieren. Dies ist vergleichbar mit der menschlichen Fähigkeit, die Struktur einer Umgebung aus wenigen Beobachtungen mental zu rekonstruieren.
    • Weltsimulation: Die Fähigkeit, die Dynamik der Welt zu modellieren, um zukünftige Beobachtungen vorherzusagen. Dies entspricht der mentalen Simulation von Ereignissen, um deren Ausgang zu antizipieren.

    Das CoT-Denken wird dabei als eine Sequenz von logischen Schritten und generierten Beobachtungen definiert, wobei diese Beobachtungen entweder verbal (textbasiert) oder visuell (bildbasiert) sein können. Die Studie unterscheidet hierbei zwischen impliziter, verbaler und visuell-verbaler CoT-Modellierung.

    VisWorld-Eval: Ein neues Evaluations-Framework

    Um diese Konzepte empirisch zu überprüfen, wurde eine neue Evaluierungssuite namens VisWorld-Eval entwickelt. Sie umfasst sieben Aufgaben, die darauf ausgelegt sind, spezifische Fähigkeiten von Weltenmodellen zu isolieren und zu testen:

    Aufgaben zur Weltsimulation:

    • Papierfalten: Hier muss die Verteilung von Löchern nach dem Entfalten eines gefalteten und gelochten Papiers vorhergesagt werden. Dies erfordert die Simulation des Entfaltungsprozesses und räumliches Transformationswissen.
    • Multi-Hop-Manipulation: Aufgaben, bei denen Objekte in einer Szene manipuliert werden (Hinzufügen, Entfernen, Farbänderungen) und die Eigenschaften des resultierenden Layouts abgefragt werden.
    • Ballverfolgung: Die Vorhersage der Flugbahn eines Balls, der von Wänden abprallt, und welches Loch er zuerst erreichen wird.
    • Labyrinth und Sokoban: Klassische Gitterwelt-Rätsel, die die Navigation und Problemlösung in strukturierten Umgebungen testen.

    Aufgaben zur Weltrekonstruktion:

    • Cube 3-View Projection: Aus isometrischen und orthografischen Ansichten eines Würfelstapels muss eine neue, unsichtbare Ansicht rekonstruiert werden.
    • Real-world Spatial Reasoning: Fragen zu Positionsbeziehungen in realistischen Szenen aus mehreren Ansichten, die ein kohärentes räumliches mentales Modell erfordern.

    Empirische Ergebnisse und Erkenntnisse

    Die Experimente wurden mit einem hochmodernen Unified Multimodal Model (UMM), BAGEL, durchgeführt und mittels Supervised Fine-Tuning (SFT) trainiert. Die Ergebnisse zeigen deutliche Vorteile der visuellen Generierung:

    • Verbesserte Leistung bei visuell geprägten Aufgaben: Bei Aufgaben wie Papierfalten, Multi-Hop-Manipulation und Ballverfolgung übertrifft die interaktive visuell-verbale CoT die rein verbalen Ansätze erheblich. Diese Aufgaben profitieren von der präziseren Darstellung physikalischer und räumlicher Eigenschaften durch visuelle Generierung.
    • Bessere Stichprobeneffizienz: Bei der Aufgabe des Papierfaltens zeigte sich, dass visuelle Weltenmodelle mit deutlich weniger Trainingsdaten eine vergleichbare Leistung erzielen wie verbale Modelle mit einem Vielfachen an Daten. Dies deutet auf ein stärkeres Vorwissen hin, das in der visuellen Modalität verankert ist.
    • Höhere Fidelity bei der Weltrekonstruktion: Bei der Cube 3-View Projection-Aufgabe, bei der neue Ansichten von Würfelstapeln generiert werden müssen, zeigte die visuelle Modellierung eine wesentlich höhere Wiedergabetreue als die verbale Modellierung, die zu drastisch niedrigen Fidelitätswerten neigte.
    • Grenzen der visuellen Modellierung: Für einfache Gitterwelt-Aufgaben wie Labyrinth und Sokoban brachte die visuelle Modellierung keine signifikanten Vorteile. Hier reichen implizite oder verbale Weltenmodelle aus, da die Zustandsverfolgung relativ einfach ist und bereits implizit in den verborgenen Repräsentationen der Modelle kodiert sein kann.

    Emergente implizite Weltenmodelle

    Eine interessante Entdeckung war die Existenz emergenten impliziten Weltenmodellierens in UMMs. Selbst in Aufgaben, in denen keine expliziten visuellen oder verbalen Beobachtungen generiert werden, zeigten die Modelle die Fähigkeit, interne Repräsentationen von Zuständen zu bilden, die für die Problemlösung genutzt werden können. Dies wurde durch das Sondieren der internen Repräsentationen des BAGEL-Modells in Labyrinth-Aufgaben nachgewiesen.

    Vergleich mit VLMs und RL

    Die Studie verglich die UMMs auch mit reinen Vision-Language Models (VLMs), um zu untersuchen, ob UMMs möglicherweise verbale Denkfähigkeiten kompromittieren. Die Ergebnisse zeigten, dass die Leistung von UMMs und VLMs bei verbalen CoT-Aufgaben vergleichbar ist, wobei UMMs in Szenarien mit visueller Weltenmodellierung überlegen sind. Dies deutet darauf hin, dass die Vorteile der visuellen Weltenmodellierung nicht auf eine Beeinträchtigung verbaler Fähigkeiten zurückzuführen sind.

    Auch Reinforcement Learning from Verifiable Rewards (RLVR) wurde eingesetzt, um das Denken zu verbessern. Obwohl RLVR konsistente Verbesserungen über verschiedene CoT-Formulierungen hinweg zeigte, blieb der Leistungsvorsprung der visuellen Weltenmodellierung bestehen. Dies unterstreicht die inhärenten Vorteile dieses Ansatzes.

    Fazit und Ausblick

    Diese umfassende Analyse unterstreicht die zentrale Rolle multimodaler Weltenmodelle für die Entwicklung einer allgemeinen KI, die menschlichem Denken näherkommt. Die Fähigkeit zur visuellen Generierung ermöglicht es KI-Systemen, reichhaltigere Informationen zu verarbeiten und ein stärkeres Vorwissen zu nutzen, insbesondere bei Aufgaben, die in der physikalischen Welt angesiedelt sind. Die "Visual Superiority Hypothesis" wird durch die empirischen Ergebnisse gestützt und bietet einen Rahmen für das Verständnis, wann und wie visuelle Generierung das Denken in KI-Systemen verbessert.

    Zukünftige Arbeiten könnten die Anwendung dieser Konzepte auf weitere Aufgabenbereiche wie Mosaik-Rätsel oder STEM-Denken (Wissenschaft, Technologie, Ingenieurwesen, Mathematik) untersuchen. Die Entwicklung von RL-Algorithmen, die speziell auf die interaktive verbal-visuelle Generierung zugeschnitten sind, könnte das Potenzial multimodaler Weltenmodelle weiter freisetzen und zu noch leistungsfähigeren und menschlicheren KI-Systemen führen, die nicht nur denken, sondern auch multimodale Weltenmodelle nutzen, um zu handeln.

    Bibliographie

    - Wu, J., Zhang, X., Yuan, H., Zhang, X., Huang, T., He, C., Deng, C., Zhang, R., Wu, Y., & Long, M. (2026). Visual Generation Unlocks Human-Like Reasoning through Multimodal World Models. arXiv preprint arXiv:2601.19834. - Google DeepMind. (n.d.). Gemini 3. Abgerufen von https://deepmind.google/models/gemini/ - Hugging Face. (2026, 28. Januar). Daily Papers. Abgerufen von https://huggingface.co/papers/date/2026-01-28 - alphaXiv. (n.d.). Explore. Abgerufen von https://alphaxiv.org/ - Cao, X., Shen, Y., Lai, B., Ye, W., Ma, Y., Heintz, J., ... & Rehg, J. M. (2025). What is the Visual Cognition Gap between Humans and Multimodal LLMs? OpenReview. Abgerufen von https://openreview.net/forum?id=78lTuD6wiO&referrer=%5Bthe%20profile%20of%20Wenqian%20Ye%5D(%2Fprofile%3Fid%3D~Wenqian_Ye1) - Gu, J., Hao, Y., Wang, H. W., Li, L., Shieh, M. Q., Choi, Y., ... & Cheng, Y. (2025). ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning. arXiv preprint arXiv:2510.27492. - Zhang, H., Wu, W., Li, C., Shang, N., Xia, Y., Huang, Y., ... & Wei, F. (2025). Latent Sketchpad: Sketching Visual Thoughts to Elicit Multimodal Reasoning in MLLMs. arXiv preprint arXiv:2510.24514. - Chern, E., Hu, Z., Chern, S., Kou, S., Su, J., Ma, Y., ... & Liu, P. (2024). Thinking with Generated Images. arXiv preprint arXiv:2505.22525v1.

    Artikel jetzt als Podcast anhören

    Kunden die uns vertrauen:
    Arise Health logoArise Health logoThe Paak logoThe Paak logoOE logo2020INC logoEphicient logo
    und viele weitere mehr!

    Bereit für den nächsten Schritt?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen