Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Multimodale große Sprachmodelle (MLLMs) haben in den letzten Jahren beeindruckende Fortschritte erzielt. Sie können Texte generieren, Bilder verstehen und sogar verschiedene Modalitäten miteinander verknüpfen. Trotz dieser Fähigkeiten stoßen MLLMs bei der detaillierten Wahrnehmung und komplexen Argumentation an ihre Grenzen. Aktuelle Ansätze im multimodalen Pre-Training konzentrieren sich aufgrund der hohen Kosten für die Erfassung von Chain-of-Thought (CoT) Argumentationsdaten hauptsächlich auf die Verbesserung der Wahrnehmung durch Training mit hochwertigen Bildbeschreibungen. Während die Nutzung fortschrittlicher MLLMs für die Beschreibungsgenerierung die Skalierbarkeit erhöht, mangelt es den Ergebnissen oft an Vollständigkeit und Genauigkeit.
Ein vielversprechender Ansatz zur Überwindung dieser Herausforderungen ist das sogenannte "Self-Improving Cognition" (SIcog), ein selbstlernendes Framework, das darauf abzielt, die systematischen kognitiven Fähigkeiten von MLLMs durch multimodales Pre-Training mit selbstgenerierten Daten zu verbessern. SIcog konzentriert sich auf zwei Schlüsselbereiche: die systematische Wahrnehmung und die strukturierte Argumentation.
Um die systematische Wahrnehmung zu verbessern, verwendet SIcog die "Chain-of-Description"-Methode. Dieser Ansatz ermöglicht ein schrittweises visuelles Verstehen, indem das MLLM dazu angehalten wird, detaillierte Beschreibungen von Bildern zu generieren, die über einfache Beschriftungen hinausgehen. Durch die schrittweise Analyse und Beschreibung der visuellen Informationen kann das Modell ein umfassenderes und genaueres Verständnis der Szene entwickeln.
Neben der verbesserten Wahrnehmung integriert SIcog auch strukturierte CoT-Argumentationstechniken. Dies ermöglicht es den MLLMs, tiefgreifende multimodale Argumentationsprozesse durchzuführen, indem sie verschiedene Informationen aus Text und Bild kombinieren und logische Schlussfolgerungen ziehen. Die strukturierte Argumentation hilft dem Modell, komplexe Zusammenhänge zu verstehen und fundiertere Entscheidungen zu treffen.
Das SIcog-Framework basiert auf einem iterativen Selbstverbesserungsprozess. Zunächst wird ein MLLM mit minimalen externen Annotationen ausgestattet, um grundlegende Fähigkeiten in der systematischen Wahrnehmung und Argumentation zu entwickeln. Das verbesserte Modell generiert dann detaillierte Beschreibungen und CoT-Argumentationsdaten, die durch Selbstkonsistenzprüfung kuratiert werden. Diese kuratierten Daten werden anschließend für das multimodale Pre-Training verwendet, um die nächste Generation von Foundation Models zu entwickeln. Durch diesen kontinuierlichen Zyklus der Datengenerierung, Kuratierung und des Pre-Trainings verbessert sich das Modell selbstständig und erweitert seine kognitiven Fähigkeiten.
Umfangreiche Experimente mit niedrig- und hochauflösenden MLLMs auf verschiedenen Benchmarks zeigen, dass SIcog mit nur 213.000 selbstgenerierten Pre-Training-Samples zu signifikanten Verbesserungen der kognitiven Fähigkeiten führt. Die mit SIcog trainierten Modelle erzielen im Vergleich zu herkömmlichen Pre-Training-Ansätzen herausragende Ergebnisse und setzen neue Maßstäbe in verschiedenen Bereichen.
SIcog stellt einen vielversprechenden Ansatz für die Entwicklung der nächsten Generation von Foundation MLLMs dar. Durch die Kombination von Chain-of-Description und strukturierter CoT-Argumentation ermöglicht SIcog eine selbstständige Verbesserung der kognitiven Fähigkeiten von MLLMs und ebnet den Weg für leistungsfähigere und intelligentere multimodale KI-Systeme.
Bibliographie: Zhang, X., Peng, D., Zhang, Y., Guo, Z., Wu, C., Chen, C., Ke, W., Meng, H., & Sun, M. (2025). Towards Self-Improving Systematic Cognition for Next-Generation Foundation MLLMs. arXiv preprint arXiv:2503.12303. Bundesamt für Sicherheit in der Informationstechnik. (2024, Dezember 6). Working Paper on Large Language Models (LLMs). Yang, J. (n.d.). SIMRAG: Improving Self-Supervised Multimodal Representation Learning with Graph Alignment. Emory University. LLM Cognition Project. (n.d.). Dair.ai. (n.d.). ML Papers of the Week. Vetter, D., & Schiele, B. (2025). On the evaluation of large multimodal models. KI - Künstliche Intelligenz, 39(1), 105–122.Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen