Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Forschung im Bereich der Künstlichen Intelligenz schreitet unaufhörlich voran, insbesondere im Feld der multimodalen großen Sprachmodelle (MLLMs). Ein aktueller Forschungsbericht stellt "Monet" vor, ein Trainingsframework, das darauf abzielt, MLLMs zu befähigen, direkt im latenten visuellen Raum zu argumentieren, indem es kontinuierliche Einbettungen als "visuelle Gedanken" generiert. Dieser Ansatz verspricht, die Flexibilität und Abstraktionsfähigkeit visueller Argumentationssysteme signifikant zu verbessern, indem er die Abhängigkeit von externen Tools oder rein textbasierten Denkketten reduziert.
Bisherige Paradigmen des visuellen Reasoning in MLLMs lassen sich grob in zwei Kategorien einteilen: "Thinking about Images" und "Thinking with Images".
"Thinking about Images" bezieht sich auf Ansätze, bei denen MLLMs textbasierte Chain-of-Thought (CoT)-Argumentation nutzen, um visuelle Informationen zu verarbeiten. Hierbei zerlegt das Sprachmodell eine Anfrage in Zwischenschritte und löst diese unter Berücksichtigung statischer visueller Eingaben. Obwohl diese Methode in verschiedenen Bereichen wie wissenschaftlicher visueller Fragenbeantwortung und Mathematik effektiv ist, kann eine übermäßige Token-Generierung dazu führen, dass der textuelle Kontext die visuellen Eingaben dominiert und wichtige Details in den Hintergrund treten.
"Thinking with Images" erweitert diesen Ansatz durch die Integration externer visueller Tools. Diese Tools ermöglichen es den Modellen, Eingabebilder aktiv zu bearbeiten – etwa durch Hervorheben von Regionen, Zoomen oder Anwenden von OCR – um die visuelle Signalgebung entlang der Argumentationspfade zu verbessern. Trotz ihrer Erfolge sind diese Methoden oft durch die vordefinierten Operationen der Tools begrenzt und können aufgrund von Trainingsdatenbias neu eingespeiste Subbilder umgehen.
Beide Paradigmen versuchen, eine Kernbeschränkung aktueller MLLMs zu adressieren: Trotz hochentwickelter visueller Encoder, die visuelle Informationen in Texträume projizieren, gelingt es den zugrunde liegenden LLMs oft nicht, die für die Textanfrage relevantesten visuellen Details zu erfassen. Das Monet-Framework zielt darauf ab, diese Lücke zu schließen, indem es eine direktere und flexiblere Form des visuellen Denkens ermöglicht.
Monet stellt einen Paradigmenwechsel dar, indem es MLLMs die Fähigkeit verleiht, direkt im latenten visuellen Raum zu argumentieren. Das Kernkonzept besteht darin, kontinuierliche Einbettungen zu generieren, die als interne "visuelle Gedanken" fungieren. Diese Gedanken ermöglichen es dem Modell, visuelle Semantiken zu rekonstruieren, die für die Beantwortung einer textuellen Anfrage relevant sind, und diese dann mit den ursprünglichen Eingaben zu kombinieren, um textuelle Antworten zu generieren.
Das Framework basiert auf der Qwen-2.5-VL-Serie und umfasst drei Hauptkomponenten:
Im Gegensatz zu Standard-MLLMs, bei denen der Decoding-Prozess streng textzentriert bleibt, ermöglicht Monet ein interleaved Latent Visual Reasoning. Wenn ein spezielles Token (<|lvr_start|>) generiert wird, wechselt das Modell in einen latenten Argumentationsmodus. In diesem Modus rekonstruiert es visuelle Semantiken im Raum der projizierten visuellen Merkmale. Die dabei erzeugten Hidden States werden direkt als Input-Embeddings für nachfolgende Positionen propagiert, bis ein Stoppkriterium erreicht ist. Daraufhin generiert das Modell ein <|lvr_end|> Token und setzt die Standard-Textgenerierung fort. Diese Abfolge von Hidden States während des LVR-Segments kann als Analogon zum menschlichen "visuellen Denken" betrachtet werden.
Die Trainingspipeline von Monet ist zweistufig:
In dieser Phase wird das Modell darauf trainiert, die Grundmuster des latenten visuellen Reasoning zu erlernen. Dies geschieht durch explizite Überwachung des Argumentationsinhalts. Das MLLM wird gezwungen, seine latenten Raum-Einbettungen (d.h. die letzten Hidden States) zu nutzen, um die Ground-Truth-Regionen von Interesse (ROIs) für jedes Bild-Text-Paar zu rekonstruieren. Der SFT-Prozess verwendet zwei gemeinsame Lernziele:
Nach dem SFT wird Reinforcement Learning angewendet, um den latenten Reasoning-Prozess weiterzuentwickeln. Das Forschungsteam identifizierte eine Einschränkung bei der Anwendung des Standard-GRPO-Algorithmus (Generalized Reinforcement Policy Optimization) auf latentes Reasoning: Er verbessert primär textbasiertes Reasoning und nicht das latente Reasoning selbst. Um dies zu überwinden, wurde VLPO (Visual-latent Policy Optimization) vorgeschlagen. VLPO integriert latente Einbettungen explizit in die Policy-Gradient-Updates. Es verwendet ein Format-Reward, das die Generierung von <|lvr_start|> und <|lvr_end|> Tokens fördert, sowie ein Accuracy-Reward, das den latenten Reasoning-Prozess indirekt über seine Auswirkungen auf die Textgenerierung überwacht.
Die Dekodierung im LVR-Prozess stellt eine Herausforderung dar, da es unklar ist, wann das Modell den latenten Reasoning-Modus verlassen sollte. Drei Strategien wurden untersucht:
Empirische Analysen zeigten, dass die Strategie "Fixed Token" die beste Leistung erzielt, während "Mode Switching Loss" und "Latent End Token" aufgrund von Instabilität und Schwierigkeiten bei der Kodierung von Stoppbedingungen weniger effektiv waren.
Monet wurde auf der Basis von Qwen-2.5-VL 3B und 7B MLLMs evaluiert. Für das Training in der SFT-Phase wurde das VISUAL COT-Dataset verwendet, das 438.000 Frage-Antwort-Paare mit annotierten Bounding Boxes enthält. Für das Reinforcement Learning wurde das ViRL-Dataset genutzt.
Die Evaluation umfasste eine Vielzahl von visuellen Aufgaben, darunter:
Die Ergebnisse zeigen, dass Monet über die meisten Benchmarks hinweg eine führende Leistung erzielt. Besonders signifikante Verbesserungen wurden auf den V*- und MMVP-Benchmarks beobachtet, wo Monet die Basismodelle deutlich übertraf. Dies deutet darauf hin, dass die Rekonstruktion visueller Semantiken effektiver sein kann als die Abhängigkeit von externen Bildbearbeitungstools für ein feinkörniges visuelles Verständnis. Zudem wurde festgestellt, dass textbasierte CoT-Ansätze in MLLMs (wie PAPO und Vision-R1) zu einer Beeinträchtigung der Wahrnehmung durch kreuzmodale Interferenzen führen können, ein Problem, das Monet durch die gemeinsame Argumentation über Modalitäten hinweg vermeidet.
Die RL-Phase mit GPROlatent verstärkte die Leistung von Monet weiter, was die Effektivität der Anpassung von Reinforcement Learning für latentes Reasoning und die Ermöglichung der Selbstentwicklung demonstriert.
Die Forschungsergebnisse des Monet-Frameworks legen nahe, dass die Argumentation im latenten visuellen Raum ein vielversprechender Weg ist, um die Fähigkeiten multimodaler Modelle zu erweitern. Durch die tiefere Integration visueller und textueller Signale im gesamten Argumentationsprozess können MLLMs ein menschenähnlicheres abstraktes visuelles Denken entwickeln.
Für Unternehmen im B2B-Bereich, die auf KI-Lösungen angewiesen sind, bedeutet dies das Potenzial für präzisere und flexiblere Anwendungen in Bereichen wie der automatisierten Bildanalyse, komplexen visuellen Fragenbeantwortung und der Entwicklung intelligenter Systeme, die visuelle Informationen auf einer tieferen, semantischen Ebene verstehen und verarbeiten können. Die Fähigkeit, direkt mit visuellen Konzepten zu "denken", anstatt sie nur in Text zu übersetzen, könnte die Grundlage für eine neue Generation von KI-Tools legen, die in der Lage sind, komplexere und nuanciertere Aufgaben zu bewältigen.
Es bleibt abzuwarten, wie sich diese Innovationen in kommerziellen Produkten manifestieren werden, aber die Richtung ist klar: Die Zukunft des multimodalen Reasoning liegt in der nahtlosen Integration und dem direkten Denken über verschiedene Modalitäten hinweg.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen