Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Im Bereich der künstlichen Intelligenz schreitet die Entwicklung von Modellen, die nicht nur Text, sondern auch andere Modalitäten wie Bilder verarbeiten können, stetig voran. Ein besonders vielversprechender Forschungszweig sind sogenannte agentische multimodale Modelle (AMMs). Diese Modelle sind darauf ausgelegt, nicht nur passive Informationen aus Text und Bildern zu extrahieren, sondern auch aktiv externe Werkzeuge zu nutzen, um komplexe Probleme zu lösen und Schlussfolgerungen zu ziehen. Eine aktuelle Entwicklung in diesem Feld ist die Einführung von DeepEyesV2, einem Modell, das die Integration von Werkzeugen in multimodale Denkprozesse auf innovative Weise vorantreibt.
Agentische multimodale Modelle repräsentieren einen Paradigmenwechsel gegenüber traditionellen multimodalen Systemen. Während letztere oft auf die reine Interpretation von Text- und Bilddaten beschränkt sind, sollen AMMs in der Lage sein, interaktive und dynamische Aufgaben zu bewältigen. Dies beinhaltet die Fähigkeit, externe Tools wie Code-Ausführungsumgebungen für mathematische Berechnungen oder Web-Suchmaschinen für die Informationsbeschaffung aktiv aufzurufen und deren Ergebnisse in den eigenen Denkprozess zu integrieren. Diese erweiterte Funktionalität ermöglicht es den Modellen, über ihre internen Wissensgrenzen hinauszugehen und eine breitere Palette von realen Problemen zu lösen.
Die Entwicklung solcher Modelle birgt jedoch signifikante Herausforderungen. Insbesondere die robuste Etablierung des Tool-Nutzungsverhaltens erweist sich als komplex. Frühere Ansätze, die sich ausschließlich auf direktes Reinforcement Learning (RL) stützten, zeigten oft Schwächen. Es wurde beobachtet, dass Modelle dazu neigten, die Tool-Nutzung zu umgehen oder fehlerhafte, nicht ausführbare Code-Blöcke zu generieren, was letztlich zu einer ineffizienten oder gar kontraproduktiven Anwendung der Werkzeuge führte.
Um diesen Herausforderungen zu begegnen, wurde DeepEyesV2 mit einem neuartigen, zweistufigen Trainingspipeline entwickelt, der die Konstruktion von Daten, Trainingsmethoden und die Modellevaluation umfasst. Dieser Ansatz gliedert sich in zwei Hauptphasen:
Die erste Phase, als "Cold-Start"-Phase bezeichnet, zielt darauf ab, grundlegende Muster der Tool-Nutzung zu etablieren. In dieser Phase wird dem Modell beigebracht, wann und wie externe Werkzeuge sinnvoll eingesetzt werden können. Dies ist entscheidend, da direktes Reinforcement Learning allein oft nicht ausreicht, um ein stabiles und zuverlässiges Tool-Use-Verhalten zu induzieren. Die initiale Etablierung von Tool-Nutzungsmustern bildet somit die Basis für die nachfolgende Verfeinerung.
Nach der Cold-Start-Phase folgt eine Reinforcement Learning-Phase. Hierbei wird das Modell weiter trainiert, um die Tool-Aufrufe zu optimieren und komplexe Kombinationen von Werkzeugen zu ermöglichen. Das Modell lernt, Werkzeuge selektiv und kontextabhängig aufzurufen, basierend auf dem jeweiligen Problem. Diese Verfeinerung führt zu einer effizienteren und zielgerichteteren Anwendung der verfügbaren externen Ressourcen.
Ein wesentlicher Bestandteil der Entwicklung von DeepEyesV2 war die Kuratierung eines vielfältigen und anspruchsvollen Trainingsdatensatzes. Dieser Datensatz wurde speziell so gestaltet, dass er Beispiele enthält, in denen die Tool-Nutzung einen klaren Vorteil bietet. Die Prinzipien der Datensammlung umfassen:
Zur Evaluation von DeepEyesV2 wurde das Modell auf dem umfassenden Benchmark RealX-Bench sowie auf anderen repräsentativen Benchmarks getestet. RealX-Bench ist darauf ausgelegt, reales multimodales Denken zu bewerten, das die Integration verschiedener Fähigkeiten wie Wahrnehmung, Suche und logisches Denken erfordert. Die Ergebnisse zeigten die Effektivität von DeepEyesV2 in Bezug auf reales Verständnis, mathematisches Denken und suchintensive Aufgaben.
Ein bemerkenswertes Merkmal von DeepEyesV2 ist seine Fähigkeit zur aufgabenadaptiven Tool-Nutzung. Das Modell neigt dazu, Bildoperationen für Wahrnehmungsaufgaben und numerische Berechnungen für logische Aufgaben zu verwenden. Dies deutet auf ein differenziertes Verständnis der jeweiligen Problemstellungen und der optimalen Werkzeuge hin. Reinforcement Learning ermöglicht zudem komplexere Tool-Kombinationen, wodurch das Modell Werkzeuge selektiv basierend auf dem Problemkontext aufrufen kann.
Die Analyse der Tool-Aufrufe zeigte, dass Reinforcement Learning die Effizienz der Tool-Nutzung signifikant verbessert. Nach dem Reinforcement Learning sank die Rate der Tool-Aufrufe des Modells erheblich. Dies deutet darauf hin, dass das Modell adaptives Denken erlernt: Wenn Tool-Aufrufe nicht notwendig sind, löst das Modell Probleme direkt, anstatt ineffektive Werkzeuge aufzurufen. Diese adaptive Strategie führt zu einer insgesamt effizienteren Problemlösung.
Die Forschung an DeepEyesV2 bietet wertvolle Einblicke in die Entwicklung agentischer multimodaler Modelle. Die Ergebnisse legen nahe, dass ein mehrstufiger Trainingsansatz, der einen "Cold-Start" zur Etablierung von Tool-Nutzungsmustern und eine anschließende Reinforcement Learning-Phase zur Verfeinerung beinhaltet, entscheidend für den Erfolg solcher Modelle ist. Die Fähigkeit zur Integration externer Werkzeuge, kombiniert mit einem adaptiven und effizienten Tool-Aufruf, positioniert DeepEyesV2 als einen wichtigen Schritt in Richtung allgemeinerer, zuverlässigerer und erweiterbarer Rahmenwerke für multimodales Denken. Diese Entwicklungen könnten zukünftig in einer Vielzahl von Anwendungen, von komplexen Datenanalysen bis hin zu interaktiven KI-Assistenten, von Bedeutung sein.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen