KI für Ihr Unternehmen – Jetzt Demo buchen

Neuer Ansatz für multimodales Denken in der KI durch das Monet-Framework

Kategorien:
No items found.
Freigegeben:
November 27, 2025

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

1
🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

2
🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

3
⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

4
🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

5
👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Inhaltsverzeichnis

    mindverse studio – Ihre Plattform für digitale Effizienz

    Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.
    Mehr über Mindverse Studio erfahren

    Das Wichtigste in Kürze

    • Das Forschungsteam hinter "Monet" hat einen neuen Ansatz für multimodale große Sprachmodelle (MLLMs) entwickelt, der visuelles Denken direkt im latenten visuellen Raum ermöglicht.
    • Monet generiert kontinuierliche Einbettungen als "visuelle Gedanken", um die Grenzen bestehender textbasierter oder toolgestützter visueller Denkweisen zu überwinden.
    • Das Framework adressiert Herausforderungen wie hohe Rechenkosten und unzureichende Überwachung latenter Einbettungen durch eine dreistufige, destillationsbasierte Supervised Fine-Tuning (SFT)-Pipeline und eine neue Reinforcement-Learning-Methode namens VLPO.
    • Monet-7B demonstriert konsistente Leistungssteigerungen bei realen Wahrnehmungs- und Reasoning-Benchmarks sowie eine starke Generalisierungsfähigkeit bei abstrakten visuellen Reasoning-Aufgaben.
    • Die Arbeit unterstreicht das Potenzial der direkten visuellen und textuellen Argumentation in einem gemeinsamen latenten Raum für zukünftige Fortschritte im multimodalen Reasoning.

    Monet: Eine neue Ära des visuellen Denkens in latenten Räumen für MLLMs

    Die Forschung im Bereich der Künstlichen Intelligenz schreitet unaufhörlich voran, insbesondere im Feld der multimodalen großen Sprachmodelle (MLLMs). Ein aktueller Forschungsbericht stellt "Monet" vor, ein Trainingsframework, das darauf abzielt, MLLMs zu befähigen, direkt im latenten visuellen Raum zu argumentieren, indem es kontinuierliche Einbettungen als "visuelle Gedanken" generiert. Dieser Ansatz verspricht, die Flexibilität und Abstraktionsfähigkeit visueller Argumentationssysteme signifikant zu verbessern, indem er die Abhängigkeit von externen Tools oder rein textbasierten Denkketten reduziert.

    Die Evolution des visuellen Reasoning in MLLMs

    Bisherige Paradigmen des visuellen Reasoning in MLLMs lassen sich grob in zwei Kategorien einteilen: "Thinking about Images" und "Thinking with Images".

    "Thinking about Images" bezieht sich auf Ansätze, bei denen MLLMs textbasierte Chain-of-Thought (CoT)-Argumentation nutzen, um visuelle Informationen zu verarbeiten. Hierbei zerlegt das Sprachmodell eine Anfrage in Zwischenschritte und löst diese unter Berücksichtigung statischer visueller Eingaben. Obwohl diese Methode in verschiedenen Bereichen wie wissenschaftlicher visueller Fragenbeantwortung und Mathematik effektiv ist, kann eine übermäßige Token-Generierung dazu führen, dass der textuelle Kontext die visuellen Eingaben dominiert und wichtige Details in den Hintergrund treten.

    "Thinking with Images" erweitert diesen Ansatz durch die Integration externer visueller Tools. Diese Tools ermöglichen es den Modellen, Eingabebilder aktiv zu bearbeiten – etwa durch Hervorheben von Regionen, Zoomen oder Anwenden von OCR – um die visuelle Signalgebung entlang der Argumentationspfade zu verbessern. Trotz ihrer Erfolge sind diese Methoden oft durch die vordefinierten Operationen der Tools begrenzt und können aufgrund von Trainingsdatenbias neu eingespeiste Subbilder umgehen.

    Beide Paradigmen versuchen, eine Kernbeschränkung aktueller MLLMs zu adressieren: Trotz hochentwickelter visueller Encoder, die visuelle Informationen in Texträume projizieren, gelingt es den zugrunde liegenden LLMs oft nicht, die für die Textanfrage relevantesten visuellen Details zu erfassen. Das Monet-Framework zielt darauf ab, diese Lücke zu schließen, indem es eine direktere und flexiblere Form des visuellen Denkens ermöglicht.

    Monet: Argumentation im latenten visuellen Raum

    Monet stellt einen Paradigmenwechsel dar, indem es MLLMs die Fähigkeit verleiht, direkt im latenten visuellen Raum zu argumentieren. Das Kernkonzept besteht darin, kontinuierliche Einbettungen zu generieren, die als interne "visuelle Gedanken" fungieren. Diese Gedanken ermöglichen es dem Modell, visuelle Semantiken zu rekonstruieren, die für die Beantwortung einer textuellen Anfrage relevant sind, und diese dann mit den ursprünglichen Eingaben zu kombinieren, um textuelle Antworten zu generieren.

    Das Framework basiert auf der Qwen-2.5-VL-Serie und umfasst drei Hauptkomponenten:

    • Einen Vision Encoder, der Bilder in visuelle Merkmale umwandelt.
    • Ein LLM-Backbone, das textuelle Anfragen in Sprachmerkmale einbettet.
    • Einen Multimodal Projector, der visuelle und textuelle Merkmale in einem gemeinsamen latenten semantischen Raum ausrichtet.

    Im Gegensatz zu Standard-MLLMs, bei denen der Decoding-Prozess streng textzentriert bleibt, ermöglicht Monet ein interleaved Latent Visual Reasoning. Wenn ein spezielles Token (<|lvr_start|>) generiert wird, wechselt das Modell in einen latenten Argumentationsmodus. In diesem Modus rekonstruiert es visuelle Semantiken im Raum der projizierten visuellen Merkmale. Die dabei erzeugten Hidden States werden direkt als Input-Embeddings für nachfolgende Positionen propagiert, bis ein Stoppkriterium erreicht ist. Daraufhin generiert das Modell ein <|lvr_end|> Token und setzt die Standard-Textgenerierung fort. Diese Abfolge von Hidden States während des LVR-Segments kann als Analogon zum menschlichen "visuellen Denken" betrachtet werden.

    Trainingspipeline und methodische Innovationen

    Die Trainingspipeline von Monet ist zweistufig:

    1. Supervised Fine-Tuning (SFT)

    In dieser Phase wird das Modell darauf trainiert, die Grundmuster des latenten visuellen Reasoning zu erlernen. Dies geschieht durch explizite Überwachung des Argumentationsinhalts. Das MLLM wird gezwungen, seine latenten Raum-Einbettungen (d.h. die letzten Hidden States) zu nutzen, um die Ground-Truth-Regionen von Interesse (ROIs) für jedes Bild-Text-Paar zu rekonstruieren. Der SFT-Prozess verwendet zwei gemeinsame Lernziele:

    • Visual Reconstruction Loss (MSE): Dieser Verlustterm stellt sicher, dass die vom Modell vorhergesagten Hidden States die zugrunde liegenden visuellen Semantiken der ROIs annähern.
    • Next-Token Prediction (NTP) Loss (Cross-Entropy): Dieser Standard-Verlustterm maximiert die Wahrscheinlichkeit der Ground-Truth-Textsequenz während der Sprachmodellierungsphase.

    2. Reinforcement Learning (RL) mit VLPO

    Nach dem SFT wird Reinforcement Learning angewendet, um den latenten Reasoning-Prozess weiterzuentwickeln. Das Forschungsteam identifizierte eine Einschränkung bei der Anwendung des Standard-GRPO-Algorithmus (Generalized Reinforcement Policy Optimization) auf latentes Reasoning: Er verbessert primär textbasiertes Reasoning und nicht das latente Reasoning selbst. Um dies zu überwinden, wurde VLPO (Visual-latent Policy Optimization) vorgeschlagen. VLPO integriert latente Einbettungen explizit in die Policy-Gradient-Updates. Es verwendet ein Format-Reward, das die Generierung von <|lvr_start|> und <|lvr_end|> Tokens fördert, sowie ein Accuracy-Reward, das den latenten Reasoning-Prozess indirekt über seine Auswirkungen auf die Textgenerierung überwacht.

    Dekodierungsstrategien

    Die Dekodierung im LVR-Prozess stellt eine Herausforderung dar, da es unklar ist, wann das Modell den latenten Reasoning-Modus verlassen sollte. Drei Strategien wurden untersucht:

    • Fixed Token: Dem Modell wird ein konstantes Budget an Reasoning-Schritten zugewiesen. Nach Erreichen dieses Budgets wird der latente Reasoning-Modus sofort verlassen.
    • Latent End Token: Ein trainierbarer Tensor im Hidden-State-Raum wird eingeführt. Wenn der letzte Hidden State diesem Tensor nahekommt, nimmt der Decoder die Text-Token-Generierung wieder auf.
    • Mode Switching Loss: Ein zusätzlicher Verlustterm während des SFT überwacht die Token-Verteilung, die vom Sprachmodell-Head in der latenten Reasoning-Phase vorhergesagt wird.

    Empirische Analysen zeigten, dass die Strategie "Fixed Token" die beste Leistung erzielt, während "Mode Switching Loss" und "Latent End Token" aufgrund von Instabilität und Schwierigkeiten bei der Kodierung von Stoppbedingungen weniger effektiv waren.

    Experimentelle Ergebnisse und Benchmarks

    Monet wurde auf der Basis von Qwen-2.5-VL 3B und 7B MLLMs evaluiert. Für das Training in der SFT-Phase wurde das VISUAL COT-Dataset verwendet, das 438.000 Frage-Antwort-Paare mit annotierten Bounding Boxes enthält. Für das Reinforcement Learning wurde das ViRL-Dataset genutzt.

    Die Evaluation umfasste eine Vielzahl von visuellen Aufgaben, darunter:

    • Visuelle Detailerkennung: V* Bench (Messung der visuellen Detailsuche und relativen räumlichen Argumentation) und MMVP (Messung der Wahrnehmungsrobustheit unter subtilen Bildstörungen).
    • Diverse visionzentrische Benchmarks: Counting (Objektaufzählung), JigSaw (Bildrekonstruktion aus Fragmenten), Relative Reflectance (pixelbasierter Albedo-Vergleich) und Spatial Relation (Objekt-Beziehungs-Verständnis innerhalb einer Szene) aus dem BLINK-Benchmark.

    Die Ergebnisse zeigen, dass Monet über die meisten Benchmarks hinweg eine führende Leistung erzielt. Besonders signifikante Verbesserungen wurden auf den V*- und MMVP-Benchmarks beobachtet, wo Monet die Basismodelle deutlich übertraf. Dies deutet darauf hin, dass die Rekonstruktion visueller Semantiken effektiver sein kann als die Abhängigkeit von externen Bildbearbeitungstools für ein feinkörniges visuelles Verständnis. Zudem wurde festgestellt, dass textbasierte CoT-Ansätze in MLLMs (wie PAPO und Vision-R1) zu einer Beeinträchtigung der Wahrnehmung durch kreuzmodale Interferenzen führen können, ein Problem, das Monet durch die gemeinsame Argumentation über Modalitäten hinweg vermeidet.

    Die RL-Phase mit GPROlatent verstärkte die Leistung von Monet weiter, was die Effektivität der Anpassung von Reinforcement Learning für latentes Reasoning und die Ermöglichung der Selbstentwicklung demonstriert.

    Implikationen für die Zukunft

    Die Forschungsergebnisse des Monet-Frameworks legen nahe, dass die Argumentation im latenten visuellen Raum ein vielversprechender Weg ist, um die Fähigkeiten multimodaler Modelle zu erweitern. Durch die tiefere Integration visueller und textueller Signale im gesamten Argumentationsprozess können MLLMs ein menschenähnlicheres abstraktes visuelles Denken entwickeln.

    Für Unternehmen im B2B-Bereich, die auf KI-Lösungen angewiesen sind, bedeutet dies das Potenzial für präzisere und flexiblere Anwendungen in Bereichen wie der automatisierten Bildanalyse, komplexen visuellen Fragenbeantwortung und der Entwicklung intelligenter Systeme, die visuelle Informationen auf einer tieferen, semantischen Ebene verstehen und verarbeiten können. Die Fähigkeit, direkt mit visuellen Konzepten zu "denken", anstatt sie nur in Text zu übersetzen, könnte die Grundlage für eine neue Generation von KI-Tools legen, die in der Lage sind, komplexere und nuanciertere Aufgaben zu bewältigen.

    Es bleibt abzuwarten, wie sich diese Innovationen in kommerziellen Produkten manifestieren werden, aber die Richtung ist klar: Die Zukunft des multimodalen Reasoning liegt in der nahtlosen Integration und dem direkten Denken über verschiedene Modalitäten hinweg.

    Bibliographie

    • Qixun Wang, Yang Shi, Yifei Wang, Yuanxing Zhang, Pengfei Wan, Kun Gai, Xianghua Ying, Yisen Wang. (2025). Monet: Reasoning in Latent Visual Space Beyond Images and Language. Verfügbar unter: https://arxiv.org/abs/2511.21395
    • Hao Shao, Shengju Qian, Han Xiao, Guanglu Song, Zhuofan Zong, Letian Wang, Yu Liu, Hongsheng Li. (2024). Visual CoT: Unleashing Chain-of-Thought Reasoning in Multi-Modal Language Models.
    • Bangzheng Li, Ximeng Sun, Jiang Liu, Ze Wang, Jialian Wu, Xiaodong Yu, Hao Chen, Emad Barsoum, Muhao Chen, Zicheng Liu. (2025). Latent Visual Reasoning. Verfügbar unter: https://arxiv.org/html/2509.24251v2
    • Mahtab Bigverdi, Zelun Luo, Cheng-Yu Hsieh, Ethan Shen, Dongping Chen, Linda G. Shapiro, Ranjay Krishna. (2025). Perception Tokens Enhance Visual Reasoning in Multimodal Language Models. In Proceedings of the Computer Vision and Pattern Recognition Conference, pp. 3836–3845.
    • Jiayu Wang, Yifei Ming, Zhenmei Shi, Vibhav Vineet, Xin Wang, Yixuan Li, Neel Joshi. (2024). Is A Picture Worth A Thousand Words? Delving Into Spatial Reasoning for Vision Language Models. 38th Conference on Neural Information Processing Systems (NeurIPS 2024).
    • Haider Al-Tahan, Quentin Garrido, Randall Balestriero, Diane Bouchacourt, Caner Hazirbas, Mark Ibrahim. (2024). UniBench: Visual Reasoning Requires Rethinking Vision-Language Beyond Scaling. 38th Conference on Neural Information Processing Systems (NeurIPS 2024) Track on Datasets and Benchmarks.

    Artikel jetzt als Podcast anhören

    Kunden die uns vertrauen:
    Arise Health logoArise Health logoThe Paak logoThe Paak logoOE logo2020INC logoEphicient logo
    und viele weitere mehr!

    Bereit für den nächsten Schritt?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen