Selbstverbessernde multimodale KI: Fortschritte und Perspektiven für zukünftige Foundation Models

Kategorien:

No items found.

Freigegeben:

March 23, 2025

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Selbstlernende Multimodale KI: Ein neuer Ansatz für die nächste Generation von Foundation Models

Multimodale große Sprachmodelle (MLLMs) haben in den letzten Jahren beeindruckende Fortschritte erzielt. Sie können Texte generieren, Bilder verstehen und sogar verschiedene Modalitäten miteinander verknüpfen. Trotz dieser Fähigkeiten stoßen MLLMs bei der detaillierten Wahrnehmung und komplexen Argumentation an ihre Grenzen. Aktuelle Ansätze im multimodalen Pre-Training konzentrieren sich aufgrund der hohen Kosten für die Erfassung von Chain-of-Thought (CoT) Argumentationsdaten hauptsächlich auf die Verbesserung der Wahrnehmung durch Training mit hochwertigen Bildbeschreibungen. Während die Nutzung fortschrittlicher MLLMs für die Beschreibungsgenerierung die Skalierbarkeit erhöht, mangelt es den Ergebnissen oft an Vollständigkeit und Genauigkeit.

Ein vielversprechender Ansatz zur Überwindung dieser Herausforderungen ist das sogenannte "Self-Improving Cognition" (SIcog), ein selbstlernendes Framework, das darauf abzielt, die systematischen kognitiven Fähigkeiten von MLLMs durch multimodales Pre-Training mit selbstgenerierten Daten zu verbessern. SIcog konzentriert sich auf zwei Schlüsselbereiche: die systematische Wahrnehmung und die strukturierte Argumentation.

Chain-of-Description: Schrittweise Verbesserung der visuellen Wahrnehmung

Um die systematische Wahrnehmung zu verbessern, verwendet SIcog die "Chain-of-Description"-Methode. Dieser Ansatz ermöglicht ein schrittweises visuelles Verstehen, indem das MLLM dazu angehalten wird, detaillierte Beschreibungen von Bildern zu generieren, die über einfache Beschriftungen hinausgehen. Durch die schrittweise Analyse und Beschreibung der visuellen Informationen kann das Modell ein umfassenderes und genaueres Verständnis der Szene entwickeln.

Strukturierte Argumentation: Integration von multimodalem Denken

Neben der verbesserten Wahrnehmung integriert SIcog auch strukturierte CoT-Argumentationstechniken. Dies ermöglicht es den MLLMs, tiefgreifende multimodale Argumentationsprozesse durchzuführen, indem sie verschiedene Informationen aus Text und Bild kombinieren und logische Schlussfolgerungen ziehen. Die strukturierte Argumentation hilft dem Modell, komplexe Zusammenhänge zu verstehen und fundiertere Entscheidungen zu treffen.

Der SIcog-Zyklus: Selbstverbesserung durch selbstgenerierte Daten

Das SIcog-Framework basiert auf einem iterativen Selbstverbesserungsprozess. Zunächst wird ein MLLM mit minimalen externen Annotationen ausgestattet, um grundlegende Fähigkeiten in der systematischen Wahrnehmung und Argumentation zu entwickeln. Das verbesserte Modell generiert dann detaillierte Beschreibungen und CoT-Argumentationsdaten, die durch Selbstkonsistenzprüfung kuratiert werden. Diese kuratierten Daten werden anschließend für das multimodale Pre-Training verwendet, um die nächste Generation von Foundation Models zu entwickeln. Durch diesen kontinuierlichen Zyklus der Datengenerierung, Kuratierung und des Pre-Trainings verbessert sich das Modell selbstständig und erweitert seine kognitiven Fähigkeiten.

Experimentelle Ergebnisse: Signifikante Verbesserungen der kognitiven Fähigkeiten

Umfangreiche Experimente mit niedrig- und hochauflösenden MLLMs auf verschiedenen Benchmarks zeigen, dass SIcog mit nur 213.000 selbstgenerierten Pre-Training-Samples zu signifikanten Verbesserungen der kognitiven Fähigkeiten führt. Die mit SIcog trainierten Modelle erzielen im Vergleich zu herkömmlichen Pre-Training-Ansätzen herausragende Ergebnisse und setzen neue Maßstäbe in verschiedenen Bereichen.

SIcog stellt einen vielversprechenden Ansatz für die Entwicklung der nächsten Generation von Foundation MLLMs dar. Durch die Kombination von Chain-of-Description und strukturierter CoT-Argumentation ermöglicht SIcog eine selbstständige Verbesserung der kognitiven Fähigkeiten von MLLMs und ebnet den Weg für leistungsfähigere und intelligentere multimodale KI-Systeme.

Bibliographie: Zhang, X., Peng, D., Zhang, Y., Guo, Z., Wu, C., Chen, C., Ke, W., Meng, H., & Sun, M. (2025). Towards Self-Improving Systematic Cognition for Next-Generation Foundation MLLMs. arXiv preprint arXiv:2503.12303. Bundesamt für Sicherheit in der Informationstechnik. (2024, Dezember 6). Working Paper on Large Language Models (LLMs). Yang, J. (n.d.). SIMRAG: Improving Self-Supervised Multimodal Representation Learning with Graph Alignment. Emory University. LLM Cognition Project. (n.d.). Dair.ai. (n.d.). ML Papers of the Week. Vetter, D., & Schiele, B. (2025). On the evaluation of large multimodal models. KI - Künstliche Intelligenz, 39(1), 105–122.