Innovative Entwicklungen in der Agentischen Multimodalen Modellierung: DeepEyesV2

Kategorien:

No items found.

Freigegeben:

November 10, 2025

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Agentische multimodale Modelle (AMMs) sind darauf ausgelegt, Text und Bilder zu verarbeiten und externe Tools wie Code-Ausführungsumgebungen und Web-Suche aktiv zu nutzen.
DeepEyesV2 ist ein neuartiges AMM, das diese Fähigkeiten durch einen zweistufigen Trainingsansatz und eine verbesserte Tool-Integration realisiert.
Direktes Reinforcement Learning allein ist nicht ausreichend, um robuste Tool-Nutzung in AMMs zu etablieren; ein "Cold-Start"-Ansatz ist hierfür entscheidend.
DeepEyesV2 zeigt eine adaptive Tool-Nutzung, bei der Bildoperationen für Wahrnehmungsaufgaben und numerische Berechnungen für logische Aufgaben bevorzugt werden.
Die Forschung unterstreicht die Notwendigkeit diverser und gezielt kuratierter Datensätze für das Training von AMMs, insbesondere für Szenarien, in denen die Tool-Nutzung vorteilhaft ist.

Die Evolution Multimodaler Agentenmodelle: DeepEyesV2 im Fokus

Im Bereich der künstlichen Intelligenz schreitet die Entwicklung von Modellen, die nicht nur Text, sondern auch andere Modalitäten wie Bilder verarbeiten können, stetig voran. Ein besonders vielversprechender Forschungszweig sind sogenannte agentische multimodale Modelle (AMMs). Diese Modelle sind darauf ausgelegt, nicht nur passive Informationen aus Text und Bildern zu extrahieren, sondern auch aktiv externe Werkzeuge zu nutzen, um komplexe Probleme zu lösen und Schlussfolgerungen zu ziehen. Eine aktuelle Entwicklung in diesem Feld ist die Einführung von DeepEyesV2, einem Modell, das die Integration von Werkzeugen in multimodale Denkprozesse auf innovative Weise vorantreibt.

Grundlagen und Herausforderungen Agentischer Multimodaler Modelle

Agentische multimodale Modelle repräsentieren einen Paradigmenwechsel gegenüber traditionellen multimodalen Systemen. Während letztere oft auf die reine Interpretation von Text- und Bilddaten beschränkt sind, sollen AMMs in der Lage sein, interaktive und dynamische Aufgaben zu bewältigen. Dies beinhaltet die Fähigkeit, externe Tools wie Code-Ausführungsumgebungen für mathematische Berechnungen oder Web-Suchmaschinen für die Informationsbeschaffung aktiv aufzurufen und deren Ergebnisse in den eigenen Denkprozess zu integrieren. Diese erweiterte Funktionalität ermöglicht es den Modellen, über ihre internen Wissensgrenzen hinauszugehen und eine breitere Palette von realen Problemen zu lösen.

Die Entwicklung solcher Modelle birgt jedoch signifikante Herausforderungen. Insbesondere die robuste Etablierung des Tool-Nutzungsverhaltens erweist sich als komplex. Frühere Ansätze, die sich ausschließlich auf direktes Reinforcement Learning (RL) stützten, zeigten oft Schwächen. Es wurde beobachtet, dass Modelle dazu neigten, die Tool-Nutzung zu umgehen oder fehlerhafte, nicht ausführbare Code-Blöcke zu generieren, was letztlich zu einer ineffizienten oder gar kontraproduktiven Anwendung der Werkzeuge führte.

DeepEyesV2: Ein Zweistufiger Trainingsansatz

Um diesen Herausforderungen zu begegnen, wurde DeepEyesV2 mit einem neuartigen, zweistufigen Trainingspipeline entwickelt, der die Konstruktion von Daten, Trainingsmethoden und die Modellevaluation umfasst. Dieser Ansatz gliedert sich in zwei Hauptphasen:

Die "Cold-Start"-Phase

Die erste Phase, als "Cold-Start"-Phase bezeichnet, zielt darauf ab, grundlegende Muster der Tool-Nutzung zu etablieren. In dieser Phase wird dem Modell beigebracht, wann und wie externe Werkzeuge sinnvoll eingesetzt werden können. Dies ist entscheidend, da direktes Reinforcement Learning allein oft nicht ausreicht, um ein stabiles und zuverlässiges Tool-Use-Verhalten zu induzieren. Die initiale Etablierung von Tool-Nutzungsmustern bildet somit die Basis für die nachfolgende Verfeinerung.

Die Reinforcement Learning-Phase

Nach der Cold-Start-Phase folgt eine Reinforcement Learning-Phase. Hierbei wird das Modell weiter trainiert, um die Tool-Aufrufe zu optimieren und komplexe Kombinationen von Werkzeugen zu ermöglichen. Das Modell lernt, Werkzeuge selektiv und kontextabhängig aufzurufen, basierend auf dem jeweiligen Problem. Diese Verfeinerung führt zu einer effizienteren und zielgerichteteren Anwendung der verfügbaren externen Ressourcen.

Datensatz und Evaluation

Ein wesentlicher Bestandteil der Entwicklung von DeepEyesV2 war die Kuratierung eines vielfältigen und anspruchsvollen Trainingsdatensatzes. Dieser Datensatz wurde speziell so gestaltet, dass er Beispiele enthält, in denen die Tool-Nutzung einen klaren Vorteil bietet. Die Prinzipien der Datensammlung umfassen:

Vielfältige Aufgaben und Bildverteilung: Um eine breite Palette multimodaler Herausforderungen abzudecken.
Überprüfbarkeit und strukturierte Formate: Fragen wurden in einem strukturierten, offenen QA-Format neu formuliert, um eine objektive Bewertung zu erleichtern. Beispiele mit unzuverlässigen Antworten oder mehrdeutigen Formulierungen wurden ausgeschlossen.
Angemessener Schwierigkeitsgrad: Beispiele, die das Basismodell leicht lösen konnte, wurden ausgeschlossen. Priorität hatten Fragen, die eine Herausforderung darstellten.
Vorteilhafte Tool-Integration: Beispiele wurden danach kategorisiert, ob die Tool-Nutzung zu korrekten Antworten führte. Fälle, in denen das Modell mit zusätzlichen Tool-Aufrufen korrekt lösen konnte, wurden für das Reinforcement Learning reserviert, während ungelöste Beispiele für den Kaltstart verwendet wurden.

Zur Evaluation von DeepEyesV2 wurde das Modell auf dem umfassenden Benchmark RealX-Bench sowie auf anderen repräsentativen Benchmarks getestet. RealX-Bench ist darauf ausgelegt, reales multimodales Denken zu bewerten, das die Integration verschiedener Fähigkeiten wie Wahrnehmung, Suche und logisches Denken erfordert. Die Ergebnisse zeigten die Effektivität von DeepEyesV2 in Bezug auf reales Verständnis, mathematisches Denken und suchintensive Aufgaben.

Adaptive Tool-Nutzung und Effizienzsteigerung

Ein bemerkenswertes Merkmal von DeepEyesV2 ist seine Fähigkeit zur aufgabenadaptiven Tool-Nutzung. Das Modell neigt dazu, Bildoperationen für Wahrnehmungsaufgaben und numerische Berechnungen für logische Aufgaben zu verwenden. Dies deutet auf ein differenziertes Verständnis der jeweiligen Problemstellungen und der optimalen Werkzeuge hin. Reinforcement Learning ermöglicht zudem komplexere Tool-Kombinationen, wodurch das Modell Werkzeuge selektiv basierend auf dem Problemkontext aufrufen kann.

Die Analyse der Tool-Aufrufe zeigte, dass Reinforcement Learning die Effizienz der Tool-Nutzung signifikant verbessert. Nach dem Reinforcement Learning sank die Rate der Tool-Aufrufe des Modells erheblich. Dies deutet darauf hin, dass das Modell adaptives Denken erlernt: Wenn Tool-Aufrufe nicht notwendig sind, löst das Modell Probleme direkt, anstatt ineffektive Werkzeuge aufzurufen. Diese adaptive Strategie führt zu einer insgesamt effizienteren Problemlösung.

Ausblick und Implikationen

Die Forschung an DeepEyesV2 bietet wertvolle Einblicke in die Entwicklung agentischer multimodaler Modelle. Die Ergebnisse legen nahe, dass ein mehrstufiger Trainingsansatz, der einen "Cold-Start" zur Etablierung von Tool-Nutzungsmustern und eine anschließende Reinforcement Learning-Phase zur Verfeinerung beinhaltet, entscheidend für den Erfolg solcher Modelle ist. Die Fähigkeit zur Integration externer Werkzeuge, kombiniert mit einem adaptiven und effizienten Tool-Aufruf, positioniert DeepEyesV2 als einen wichtigen Schritt in Richtung allgemeinerer, zuverlässigerer und erweiterbarer Rahmenwerke für multimodales Denken. Diese Entwicklungen könnten zukünftig in einer Vielzahl von Anwendungen, von komplexen Datenanalysen bis hin zu interaktiven KI-Assistenten, von Bedeutung sein.

Bibliografie

- Hong, J., Zhao, C., Zhu, C., Lu, W., Xu, G., & Yu, X. (2025). DeepEyesV2: Toward Agentic Multimodal Model. arXiv preprint arXiv:2511.05271. - ICLR 2026 Conference Submission 1269 Authors. (2025). DeepEyesV2: Toward Agentic Multimodal Model. OpenReview.net. - Visual-Agent. (2025). DeepEyesV2. visual-agent.github.io. - Hugging Face. (2025). Daily Papers. huggingface.co/papers/date/2025-11-10.