Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Entwicklung von Künstlicher Intelligenz (KI) hat in den letzten Jahren enorme Fortschritte gemacht, insbesondere im Bereich der multimodalen Modelle, die Text und Bild verarbeiten können. Traditionelle Vision-Language-Modelle (VLMs) konzentrierten sich jedoch oft auf passive Wahrnehmungsaufgaben, wie das Beantworten von Fragen zu statischen Bildern. Eine aktuelle Veröffentlichung mit dem Titel "From Perception to Action: An Interactive Benchmark for Vision Reasoning" beleuchtet einen kritischen Übergang: von der reinen Wahrnehmung zur aktiven Problemlösung in dynamischen Umgebungen. Dieser Artikel analysiert die Herausforderungen und Fortschritte in der Forschung, die darauf abzielen, VLMs zu befähigen, physikalische Strukturen und kausale Zusammenhänge in komplexen, interaktiven 3D-Aufgaben zu verstehen und darauf basierend zu agieren.
Bisherige Evaluationsmethoden für VLMs konzentrierten sich primär auf strukturagnostische, einmalige Aufgaben, wie beispielsweise Visual Question Answering (VQA). Diese Ansätze sind jedoch unzureichend, um die Fähigkeit von KI-Agenten zu bewerten, wie Geometrie, Kontakt und Unterstützungsbeziehungen gemeinsam die möglichen Aktionen in einer dynamischen Umgebung einschränken. Um diese Lücke zu schließen, wurde der Causal Hierarchy of Actions and Interactions (CHAIN)-Benchmark eingeführt. CHAIN ist ein interaktives, physikbasiertes 3D-Testbett, das Modelle daraufhin überprüft, ob sie strukturierte Aktionssequenzen, die in physikalischen Zwängen verankert sind, verstehen, planen und ausführen können. Dies umfasst Aufgaben wie das Lösen mechanischer Puzzle und das Stapeln oder Verpacken von 3D-Objekten.
Die Ergebnisse einer umfassenden Studie mit aktuellen VLMs und diffusionsbasierten Modellen unter diesen neuen interaktiven Bedingungen zeigen, dass selbst die leistungsfähigsten Modelle noch Schwierigkeiten haben, physikalische Strukturen und kausale Zusammenhänge zu verinnerlichen. Sie scheitern oft daran, zuverlässige Langzeitpläne zu erstellen und die wahrgenommene Struktur robust in effektive Aktionen zu übersetzen. Dies unterstreicht die Notwendigkeit, Evaluationsparadigmen von passiver Wahrnehmung hin zu aktivem Problemlösen zu verschieben.
Die Forschung im Bereich der multimodalen großen Sprachmodelle (MLLMs) steht vor komplexen Herausforderungen, die sich in zwei Hauptkategorien unterteilen lassen: Wahrnehmung und Kognition. Eine detaillierte Analyse dieser Bereiche ist entscheidend, um die Limitationen aktueller Modelle zu verstehen und zukünftige Entwicklungen zu steuern.
Eine grundlegende Einschränkung vieler MLLMs liegt in ihrer schwachen Fähigkeit zur Extraktion visueller Informationen auf niedriger Ebene. Frühe Modelle wie die LLaVA-Serie, die auf CLIP-ViT-Encodern basierten, konzentrierten sich auf die globale Vision-Language-Ausrichtung, was zu einer unzureichenden Erkennung feingranularer Details und schwachen räumlichen Lokalisationsfähigkeiten führte. Um dies zu überwinden, konzentriert sich die jüngste Forschung auf zwei Hauptrichtungen:
Nachdem die allgemeinen Repräsentationsfähigkeiten der visuellen Encoder verbessert wurden, liegt der Fokus nun auf der Verbesserung der aufgabenbezogenen Vision-Language-Ausrichtung für ein besseres interaktives Verständnis. Dies geschieht in zwei Hauptphasen:
Über die statische, einmalige Interaktion hinausgehend, zielt die dynamische Wahrnehmung darauf ab, dem Modell die Fähigkeit zur aktiven und iterativen Suche nach visuellen Informationen zu verleihen. Methoden wie V* verwenden eine LLM-gesteuerte hierarchische visuelle Suche, um schrittweise in Details zu zoomen und Beweise zu überprüfen. DyFo formalisiert die visuelle Suche als Monte-Carlo-Baumsuche (MCTS), während FaST, inspiriert vom Konzept des schnellen und langsamen Denkens, einen leichtgewichtigen, eingebauten Adapter trainiert, um die Denkgeschwindigkeit basierend auf der Problemschwierigkeit zu steuern.
Frühe MLLMs arbeiteten nach einem einstufigen Denkparadigma, das komplexe Aufgaben als monolithische "Input-Output"-Abbildungen behandelte. Um diese Einschränkung zu überwinden, konzentriert sich die Forschung darauf, Modelle mit der Fähigkeit zur schrittweisen Problemzerlegung auszustatten, um nicht nur die Genauigkeit der Endergebnisse, sondern auch die Korrektheit und Überprüfbarkeit des Denkprozesses zu gewährleisten. Dies wird durch drei Hauptrichtungen verfolgt:
MLLMs verwenden oft einen statischen, einmaligen visuellen Encoding-Mechanismus, der eine dynamische Interaktion einschränkt und zu Informationsverlust oder Halluzinationen führen kann. Die Kernlösung ist die Etablierung einer "Denken mit Bild"-Schleife, die es dem Modell ermöglicht, während der Inferenz kontinuierlich auf visuelle Beweise zurückzugreifen. Dies wird durch die Konstruktion von verschränkten Vision-Language-Chains-of-Thought erreicht, die entweder endogene (interne Aufmerksamkeitsmechanismen) oder exogene (externe Werkzeuge) visuelle Beweisinjektion nutzen.
Die Fortschritte in der multimodalen KI werden durch eine Vielzahl von Anwendungen und spezialisierten Benchmarks vorangetrieben, die die Fähigkeiten von MLLMs in verschiedenen Domänen bewerten. Diese reichen von der Lösung wissenschaftlicher Probleme bis zur Analyse menschlicher Emotionen.
Frühe Benchmarks im Bereich des visuellen Denkens, wie VQA und GQA, konzentrierten sich auf die Objekterkennung. Spätere Entwicklungen wie VCR und OK-VQA integrierten externe Wissensbasis und logisches Denken. Die größte Herausforderung bleibt jedoch das abstrakte symbolische Denken in wissenschaftlichen Kontexten. Benchmarks wie ScienceQA, MathVista und MathVerse wurden entwickelt, um diese Lücke zu schließen. ScienceQA umfasst mehr als 20.000 multimodale Fragen aus natur-, sozial- und sprachwissenschaftlichen Lehrplänen der Klassen 3-12, wobei jede Frage mit einer vollständigen Gedankenreihe (Chain-of-Thought) annotiert ist, um nicht nur die Richtigkeit der Antwort, sondern auch die logische Kohärenz des Denkprozesses zu bewerten. MathVista integriert 28 bestehende visuell-mathematische Datensätze, um eine umfassende Evaluationssuite zu schaffen, die Algebra, Geometrie und Statistik abdeckt. MathVerse und MATH-V bieten hochwertige Probleme aus Mathematikwettbewerben. Neuere Benchmarks wie R-Bench und MR-MATH erweitern die Herausforderung auf Graduiertenniveau und aktuelle mathematische Forschungsprobleme.
Proprietäre Modelle wie Gemini 2.5 Pro zeigen eine herausragende Leistung bei Benchmarks wie MathVista, MathVerse, MATH-V, MV-MATH und MMMU. Dies deutet auf überlegene Fähigkeiten in komplexen symbolischen Operationen, geometrisch-räumlicher Vorstellung und mehrstufiger logischer Deduktion hin. Open-Source-Modelle wie InternVL3 zeigen ebenfalls starke Leistungen, insbesondere durch den Einsatz von Prozessüberwachung und Best-of-N-Sampling, um robuste Denkpfade zu generieren und zu verifizieren. Die zukünftige Forschung muss sich darauf konzentrieren, die kognitive Intelligenz dieser Modelle und ihre Fähigkeit zur Wissensintegration und Innovation bei neuartigen, offenen Problemen zu verbessern.
Im medizinischen Bereich sind selbst kleine Fehler kritisch, weshalb der Fokus auf Zuverlässigkeit und der Bekämpfung von "Halluzinationen" liegt. Frühe Benchmarks wie VQA-RAD legten den Grundstein, konzentrierten sich aber auf die Identifizierung anatomischer Strukturen. HALT-MedVQA wurde speziell entwickelt, um die Fähigkeit von Modellen zu testen, unsinnige oder widersprüchliche Anfragen zu erkennen und abzulehnen. Weitere Benchmarks wie PathVQA (Pathologiebilder), Kvasir-VQA (gastrointestinale Diagnostik) und MicroVQA (mikroskopische Bilder) decken verschiedene medizinische Spezialitäten ab. Med-VQA, SLAKE und PMC-VQA bieten größere, umfassendere Datensätze für allgemeine medizinische Fragestellungen.
Proprietäre Modelle wie Med-PaLM M zeigen eine überragende Leistung in medizinischen Diagnose-Benchmarks, was auf eine sorgfältig entworfene Evaluations- und Trainingsarchitektur zurückzuführen ist, die visuelle Informationen mit spezifischen medizinischen Anweisungen und Wissen in Einklang bringt. Die geringere Genauigkeit aller Modelle auf dem PathVQA-Datensatz im Vergleich zu menschlichen Experten zeigt die Grenzen der aktuellen KI bei hochspezialisierten kognitiven Aufgaben, die ein detailliertes Verständnis von Zellmorphologie und Gewebearchitektur erfordern. Eine kritische Herausforderung bleibt die Verbesserung der Wissensintegration und kognitiven Denkfähigkeiten in spezialisierten Fachgebieten.
Das Verständnis von Diagrammen erfordert die Integration von visueller Wahrnehmung, Textverständnis und numerisch-logischem Denken. Benchmarks wie ChartQA, PlotQA und ChartBench wurden entwickelt, um diese Fähigkeiten zu bewerten. ChartQA kombiniert menschlich formulierte und semi-automatisch generierte Fragen, um die natürliche Komplexität und den Umfang der Daten zu gewährleisten. ChartBench wurde entwickelt, um das Problem der "tabellarischen Abkürzung" zu lösen, indem alle Tabellendaten entfernt wurden, wodurch Modelle gezwungen werden, ausschließlich aus visuellen Elementen zu schließen. Neuere Arbeiten wie ChartMind und ChartMimic erweitern die Bewertung auf offene Aufgaben wie Trendanalyse und die Generierung von Code zur Reproduktion von Diagrammen.
Proprietäre Modelle wie GPT-4o und Gemini 1.5 Pro zeigen leistungsstarke und ausgewogene Fähigkeiten im Diagrammverständnis, wobei GPT-4o bei mathematischem und logischem Denken und Gemini 1.5 Pro bei der Verarbeitung komplexer, unstrukturierter Layouts führend ist. Open-Source-Modelle wie Qwen2.5-VL (72B) übertreffen sogar proprietäre Modelle bei ChartQA und DocVQA, dank ihrer innovativen Architektur, die hochauflösende Eingaben ohne Downsampling verarbeiten kann. Zukünftige Modelle werden nicht nur Diagramme "verstehen", sondern auch tiefgreifend darauf basierend argumentieren, dynamisch interagieren und domänenübergreifendes Wissen integrieren müssen.
Das Videoverständnis erweitert die visuell-textuelle Argumentation auf dynamische Sequenzen, was Dimensionen wie Zeit, Variation und Kausalität einführt. Frühe Arbeiten legten den Grundstein für Erklärbarkeit, doch die dynamische Natur von Videos erfordert komplexere, graphenstrukturierte Denkfähigkeiten. Benchmarks wie CausalVQA untersuchen kausale Beziehungen, während VCRBench die Fähigkeit von Modellen testet, durcheinandergebrachte Videoclips in eine logische Reihenfolge zu bringen. Spezielle diagnostische Benchmarks wie VidHalluc und HAVEN bewerten und mindern "Halluzinationen" im Videobereich.
Open-Source-Modelle zeigen außergewöhnliche Leistungen bei spezifischen, hochkomplexen Benchmarks, während die Evaluationsdaten für proprietäre Modelle oft spärlich sind. Gemini 1.5 Pro, mit seinem großen Kontextfenster und der Mixture-of-Experts (MoE)-Architektur, zeigt nahezu perfekte Leistung bei der Beantwortung von Fragen zu langen Videos. Qwen-2.5-VL und STORM zeichnen sich in verschiedenen Bereichen aus, wobei Qwen-2.5-VL bei langen Videos durch seine "Absolute Time Encoding"-Technik und STORM bei zeitlicher Argumentation durch einen dedizierten temporalen Encoder überzeugt. Die Fragmentierung und Opazität des Evaluationsökosystems stellen weiterhin große Herausforderungen dar, die einen gemeinsamen, transparenten Rahmen erfordern, um hochrangige kognitive Fähigkeiten zu messen.
Die Sentimentanalyse in multimodalen Modellen geht über die statische Erkennung von Gesichtsausdrücken hinaus und zielt darauf ab, die komplexen menschlichen sozialen und emotionalen Dynamiken zu verstehen. Bestehende Benchmarks für Wissensabruf oder faktisches Denken sind hierfür unzureichend. Spezialisierte Benchmarks wie MELD (aus der TV-Serie "Friends") nutzen mehrteilige Dialogvideos, um das Verständnis von Kontext, Charakterinteraktionen und emotionalen Dynamiken zu bewerten. CA-MER konzentriert sich auf emotionale Konfliktszenarien, während HumanVBench und HumaniBench die Ausrichtung zwischen internen Emotionen und externen Ausdrücken sowie Fairness und Empathie bewerten. Der Trend geht von der Klassifikation zu feingranulareren Aufgaben wie dem Tracking und generativen Verständnis.
Proprietäre Modelle wie Gemini 2.5 Pro zeigen zwar führende Leistungen bei MME-EMOTION, doch die Erfolgsrate ist in diesem Bereich nicht so hoch wie in anderen Domänen. Die Evaluationsdaten für MELD und HumanVBench sind extrem spärlich, was einen fairen Vergleich erschwert. Dieses Dilemma der systemischen Evaluation, insbesondere zwischen Open-Source- und proprietären Ökosystemen, stellt ein erhebliches Hindernis dar, um den wahren Fortschritt von der perzeptuellen Intelligenz zur kognitiven Intelligenz zu messen.
Angesichts der aktuellen Herausforderungen zeichnen sich mehrere vielversprechende Forschungsrichtungen ab, um die nächste Generation von MLLMs zu entwickeln, die die Lücke zwischen Wahrnehmung und Kognition überbrücken können.
Aktuelle Vision Encoder erfassen oft nicht umfassend alle aufgabenrelevanten visuellen Informationen, was zu unvollständigen Beweisen für das sprachliche Denken führt. Zukünftige Arbeiten sollten sich auf die Entwicklung vereinheitlichter Vision Encoder konzentrieren, die multi-granulare, umfassendere Repräsentationen bereitstellen und Verständnis sowie Generierung über mehrere visuelle Modalitäten hinweg in einem einzigen Framework integrieren. Ansätze wie ATOKEN, die Bilder, Videos und 3D-Assets in einem gemeinsamen latenten Raum kodieren, und TokLIP, die visuelle Token mit hochrangigem semantischem Verständnis ausstatten, sind vielversprechend. Eine vollständige Integration über alle visuellen Modalitäten hinweg und eine Überbrückung der Kluft zwischen Verständnis und Generierung bleiben jedoch wichtige Ziele.
Eine neue Forschungsrichtung erforscht direkte Interventionen im latenten Raum, um den Denkprozess von Vision-Language-Modellen zu steuern. Diese Methoden wirken direkt auf die latenten Repräsentationen des Modells ein und ermöglichen eine flexiblere und feingranularere Kontrolle. Ansätze wie Multimodal Chain of Continuous Thought, die auf "Gedankenvektoren" im latenten Raum iterieren, und VTI, die visuelle und textuelle Merkmale stabilisieren, sind Beispiele hierfür. Das Ziel ist es, kontinuierliches Denken, verbesserte Robustheit und die Unterdrückung von Halluzinationen gleichzeitig zu erreichen, um multimodalere Denkframeworks zu schaffen, die kontrollierbarer und interpretierbarer sind.
Dieses Paradigma externalisiert den impliziten Denkprozess des Modells in explizite visuelle Entitäten, die als Wahrnehmungseingabe für nachfolgende Schritte dienen. Dies ist wertvoll in Bereichen wie Roboterplanung und visuellem Puzzlelösen. Modelle wie Chameleon und Visual Planning legen die architektonische Grundlage. Neuere Methoden wie MVoT und Mind’s Eye of LLMs fordern das Modell auf, visuelle Notizblöcke zu generieren und iterativ zu aktualisieren, um komplexe Probleme zu lösen. Herausforderungen bleiben die Ungenauigkeit oder Halluzinationen der generierten Zwischenbilder sowie die Kuration geeigneter Trainingsdaten. Zukünftige Forschung sollte die Generierungsqualität verbessern und die Abhängigkeit von manuell kuratierten Datensätzen reduzieren.
Obwohl werkzeug-augmentiertes Denken, wie in PixelReasoner und OpenThinkimg gezeigt, erhebliche Fortschritte gemacht hat, bestehen weiterhin Herausforderungen. Es gibt oft eine Konsistenzlücke zwischen visuellen Hinweisen und dem Denkprozess, die zu unbegründeten Schlussfolgerungen führt. Während Verifizierungsschritte die Genauigkeit erhöhen, gehen sie oft auf Kosten der Effizienz. Zudem generieren aktuelle Modelle oft lineare Denkpfade, was ihre Fähigkeit zur Lösung komplexer, mehrstufiger Probleme einschränkt. Zukünftige Forschung sollte die Optimierung der Denkpfadstruktur und des Zeitpunkts des Werkzeugeinsatzes in den Fokus rücken. Baum-basierte Algorithmen wie MCTS könnten komplexere Denkpfade ermöglichen, und adaptive Mechanismen könnten den optimalen Zeitpunkt für den Werkzeugeinsatz bestimmen, um Genauigkeit und Inferenzgeschwindigkeit auszugleichen.
Das domänenübergreifende Beziehungsdenken bezieht sich auf die fortgeschrittene Fähigkeit, über mehrere Bilder hinweg zu argumentieren, um logische oder sequentielle Beziehungen zwischen Ereignissen zu verstehen. Die meisten aktuellen Methoden konzentrieren sich auf das Denken mit einzelnen Bildern. Wenige Arbeiten wie CmmCoT, Focus-Centric Visual Chain und Mantis befassen sich mit multi-image Problemen. Eine offene Frage für die Zukunft ist, wie der Gedächtnisverlust von Bildbeweisen zur Inferenzzeit reduziert und eine flexiblere Nutzung von Beziehungen zwischen Bildern ermöglicht werden kann. Dies ist ein entscheidender Schritt, um MLLMs mit einer kontextuellen Gedächtnisform auszustatten, die es ihnen ermöglicht, die Welt als einen kontinuierlichen Strom miteinander verbundener Ereignisse wahrzunehmen und zu interpretieren.
Eine große Einschränkung der aktuellen Evaluationssysteme ist ihre Abhängigkeit von sauberen Daten und geschlossenen Frage-Antwort-Formaten, was eine erhebliche Lücke zur dynamischen realen Welt und fortgeschrittenen menschlichen kognitiven Aktivitäten schafft. Zukünftige kognitive Bewertungen müssen sich von geschlossenen Umgebungen hin zu den komplexen Herausforderungen der realen Welt verlagern. Benchmarks wie CA-MER und CausalVQA, die das Denken in emotional widersprüchlichen Szenarien und das kausale Verständnis bewerten, sind darauf ausgelegt, Modelle über die bloße "Wahrnehmung" hinaus zu echtem "Denken" zu zwingen. Aufgabenformate müssen offene Wissensintegration und -erstellung beinhalten, wobei der Schwerpunkt auf der Generierung logisch kohärenter Erklärungen oder ausführbaren Codes liegen sollte, anstatt eine einzige korrekte Antwort auszuwählen. ChartMimic ist ein zukunftsweisendes Beispiel, das visuelle, logische und programmiertechnische Fähigkeiten zur Reproduktion von Diagrammen erfordert.
Die Forschung im Bereich der multimodalen großen Sprachmodelle (MLLMs) befindet sich an einem entscheidenden Punkt, an dem der Fokus von der passiven Wahrnehmung hin zur aktiven, interaktiven und kognitiv anspruchsvollen Problemlösung verschoben wird. Der CHAIN-Benchmark und ähnliche Entwicklungen sind von großer Bedeutung, um die Fähigkeiten von VLMs in dynamischen 3D-Umgebungen präziser zu bewerten. Die Herausforderungen in der Verbesserung der visuellen Wahrnehmung, der dynamischen Ausrichtung von Vision-Language-Modellen sowie der Fähigkeiten zur Problemlösung und dynamischen Überprüfung sind vielfältig. Die Entwicklungen in diesen Bereichen, unterstützt durch neue Trainingsparadigmen, automatisierte Datensynthese und fortgeschrittene Suchalgorithmen, zeigen vielversprechende Wege auf. Gleichzeitig sind die Anwendungen dieser Technologien in wissenschaftlicher Problemlösung, medizinischer Diagnostik, Diagramm- und Videoverständnis sowie in der Sentimentanalyse von großer praktischer Relevanz. Es bleibt jedoch eine signifikante Lücke zwischen den Leistungen der fortschrittlichsten KI-Modelle und menschlichen Experten, insbesondere in spezialisierten kognitiven Aufgaben und bei der Bewältigung von "Halluzinationen". Zukünftige Forschung muss sich auf die Entwicklung vereinheitlichter Encoder, latentes und generatives Denken, werkzeug-augmentierte Argumentation, domänenübergreifendes Beziehungsdenken und eine realitätsnähere kognitive Evaluation konzentrieren, um die Vision einer wirklich intelligenten, interaktiven KI zu verwirklichen.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen