Fortschritte bei gedächtnisgestützten Vision-Language Modellen zur Verbesserung der semantischen Konsistenz von Objektbeschreibungen

Kategorien:

No items found.

Freigegeben:

April 4, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Herkömmliche Vision-Language Models (VLMs) haben oft Schwierigkeiten, konsistente Beschreibungen desselben Objekts aus verschiedenen Blickwinkeln zu liefern.
Ein neuer Ansatz, implementiert im EPOS-VLM, nutzt ein gedächtnisgestütztes System, um Objekten über längere Sequenzen hinweg eine dauerhafte Identität und semantische Konsistenz zu verleihen.
Dieses System integriert Datenassoziation, Objekterkennung und Explorationspolitik in einem einzigen autoregressiven Framework.
EPOS-VLM verarbeitet RGB-Beobachtungen, topografische Karten und episodisches Gedächtnis auf Objektebene, um konsistente Beschreibungen zu gewährleisten.
Das Modell wurde in fotorealistischen 3D-Umgebungen selbstüberwacht trainiert und zeigt signifikante Verbesserungen in der Beschreibungsqualität und Konsistenz im Vergleich zu Baselines.
Ein weiteres Modell, MIRA-CAP, setzt auf einen ähnlichen Ansatz mit einem kreuzmodalen Gedächtnisspeicher, adaptiver Datensatzbereinigung und einem Streaming-Decoder für Echtzeit-Captioning, um semantische Tiefe und zeitliche Kohärenz zu verbessern.

Fortschritte in der Objekterkennung: Gedächtnisgestützte Vision-Language Agents für konsistente Beschreibungen

Die Entwicklung von Künstlicher Intelligenz (KI) hat in den letzten Jahren enorme Fortschritte gemacht, insbesondere im Bereich der Vision-Language Models (VLMs). Diese Modelle sind in der Lage, visuelle Informationen zu verarbeiten und in natürliche Sprache zu übersetzen, was für eine Vielzahl von Anwendungen, von der Bildbeschreibung bis zur Steuerung von Robotern, von entscheidender Bedeutung ist. Eine zentrale Herausforderung in diesem Feld ist jedoch die Aufrechterhaltung der semantischen Konsistenz bei der Beschreibung von Objekten, insbesondere wenn diese aus verschiedenen Blickwinkeln oder über längere Zeiträume hinweg beobachtet werden. Aktuelle Forschungsergebnisse, wie sie im Paper "Memory-Augmented Vision-Language Agents for Persistent and Semantically Consistent Object Captioning" vorgestellt werden, adressieren diese Problematik durch innovative Ansätze, die gedächtnisgestützte Systeme nutzen.

Die Herausforderung der Konsistenz in Vision-Language Models

Traditionelle VLMs neigen dazu, inkonsistente Beschreibungen desselben Objekts zu generieren, wenn sich der Blickwinkel ändert. Ein Sofa könnte beispielsweise aus der einen Perspektive als "Sofa" und aus einer anderen als "Bett" oder "Sessel" bezeichnet werden. Diese inkonsistente semantische Repräsentation behindert die Fähigkeit von verkörperten Agenten, ein stabiles Verständnis ihrer Umgebung aufzubauen. Bisherige Lösungsansätze umfassten oft die Aggregation von Multi-View-Daten offline oder mehrstufige Pipelines, die Exploration, Datenassoziation und das Erlernen von Beschreibungen voneinander entkoppelten. Diese Methoden zeigten jedoch begrenzte Fähigkeiten, über zuvor beobachtete Objekte zu schlussfolgern und deren Identität über die Zeit hinweg aufrechtzuerhalten.

EPOS-VLM: Ein integrierter Ansatz mit episodischem Gedächtnis

Um dieser Problematik entgegenzuwirken, wurde ein gedächtnisgestützter Vision-Language Agent namens EPOS-VLM (Embodied Persistent Object Semantics) entwickelt. Dieses Modell stellt einen bedeutenden Fortschritt dar, da es Datenassoziation, Objekterkennung und Explorationspolitik innerhalb eines einzigen autoregressiven Frameworks simultan handhabt. EPOS-VLM verarbeitet dabei die aktuelle RGB-Beobachtung, eine topografische Karte der erkundeten Umgebung und ein episodisches Gedächtnis auf Objektebene, das in objektspezifische Tokens serialisiert wird. Dies soll die dauerhafte Objektidentität und semantische Konsistenz über längere Sequenzen hinweg gewährleisten.

Das Training von EPOS-VLM erfolgte auf selbstüberwachte Weise in fotorealistischen 3D-Umgebungen. Hierfür wurde ein Datensatz mit einer auf Diskrepanzen basierenden Politik und einem Pseudo-Captioning-Modell erstellt, das Konsistenz über Multi-View-Beschreibungsverläufe hinweg erzwingt. Umfangreiche Evaluierungen auf einem manuell annotierten Objekttestset zeigten signifikante Verbesserungen. Die Standard-Captioning-Scores konnten um bis zu +11,86 % gesteigert werden, während die Ähnlichkeit der Beschreibungen (Caption Self-Similarity) um bis zu +7,39 % gegenüber Baseline-Modellen zunahm. Dies wird durch eine kompakte Szenenrepräsentation ermöglicht, die eine skalierbare Leistung gewährleistet.

Die Rolle des Gedächtnisses und der Exploration

Der Erfolg von EPOS-VLM liegt maßgeblich in seiner Fähigkeit begründet, ein strukturiertes, episodisches Gedächtnis zu nutzen. Während herkömmliche VLMs jedes Bild oder jeden Frame isoliert betrachten, integriert EPOS-VLM Beobachtungen über die Zeit hinweg. Dies ermöglicht es dem Agenten, ein stabiles Objektverständnis aufzubauen, ähnlich wie es Menschen durch "verkörperte Exploration" tun – also durch Bewegung, wiederholtes Betrachten von Objekten und die Integration von Beobachtungen. Die Motivation hinter diesem Ansatz ist die Erkenntnis, dass Menschen durch Erkundung und die Integration von Informationen über die Zeit hinweg konsistente semantische Repräsentationen bilden. Im Gegensatz dazu führen Modelle, die auf statischen Bild-Text-Paaren trainiert werden, oft zu inkonsistenten Beschreibungen desselben Objekts bei wechselnden Blickwinkeln. EPOS-VLM wirkt diesem "semantischen Drift" entgegen, indem es Wahrnehmung, Gedächtnis und Aktion gemeinsam modelliert und es Agenten ermöglicht, aktiv informative Blickwinkel auszuwählen und konsistente Objektrepräsentationen über die Zeit aufrechtzuerhalten.

Die Architektur des EPOS-VLM basiert auf einem vortrainierten Qwen3-VL-2B-Backbone. Visuelle Eingaben umfassen die RGB-Beobachtung mit erkannten Instanzen und temporären IDs sowie eine erkundete topografische Karte. Das episodische Gedächtnis wird mit speziellen Tokens serialisiert und dem Sprachprompt vorangestellt. Das Modell decodiert autoregressiv Tokens für Datenassoziation, objektbezogene Beschreibungen und Navigationsaktionen.

MIRA-CAP: Eine weitere Perspektive auf gedächtnisgestütztes Captioning

Ein verwandter Ansatz ist MIRA-CAP (Memory-Integrated Retrieval-Augmented Captioning), der ebenfalls darauf abzielt, genaue und kontextuell reichhaltige Bild- und Videobeschreibungen zu generieren. MIRA-CAP adressiert ähnliche Herausforderungen wie EPOS-VLM, konzentriert sich jedoch stärker auf die zeitliche Kohärenz in Videos, die Reduzierung von Rauschen in großen Datensätzen und die Ermöglichung von Echtzeit-Captioning. Das Framework von MIRA-CAP basiert auf drei Kerninnovationen:

- einem kreuzmodalen Gedächtnisspeicher, der relevante Kontexte aus früheren Frames abruft, um die zeitliche Konsistenz und den Erzählfluss zu verbessern - einem adaptiven Datensatz-Pruning-Mechanismus, der verrauschte Daten filtert, um die Ausrichtung und Generalisierung zu verbessern - einem Streaming-Decoder, der inkrementell Beschreibungen generiert und somit Echtzeit-Captioning ermöglicht, ohne auf die vollständige Videosequenz zugreifen zu müssen

Die Evaluation von MIRA-CAP auf Standarddatensätzen wie MS COCO, YouCook2, ActivityNet und Flickr30k zeigt, dass das Modell hohe Werte bei Metriken wie CIDEr, SPICE und Polos erreicht, was eine starke Übereinstimmung mit menschlichen Bewertungen und eine effektive Handhabung komplexer visueller und zeitlicher Strukturen demonstriert. MIRA-CAP bietet somit eine robuste und skalierbare Lösung für statische und dynamische Captioning-Aufgaben.

Architektur und Funktionsweise von MIRA-CAP

Der kreuzmodale Gedächtnisspeicher in MIRA-CAP speichert Einbettungen aus Bild- und Texteingaben. Bei der Verarbeitung jedes Frames werden die visuellen und textuellen Merkmale kodiert und im Gedächtnisspeicher abgelegt. Anschließend werden die für den aktuellen Input relevantesten Einträge durch Berechnung von Ähnlichkeitswerten abgerufen. Diese abgerufenen Einbettungen werden mittels eines Gating-Mechanismus mit den aktuellen Eingabemerkmalen integriert, um eine ausgewogene Berücksichtigung von aktuellen und vergangenen Informationen sicherzustellen. Dies führt zu Beschreibungen, die kohärent sind und in der breiteren visuellen Erzählung verankert sind.

Ein Dual-Attention Transformer Backbone in MIRA-CAP extrahiert und integriert visuelle und textuelle Merkmale. Es verwendet zwei separate Aufmerksamkeitsmodule – visuelle und textuelle Aufmerksamkeit –, um die Merkmalsextraktion zu verbessern und die kontextuelle Relevanz sicherzustellen. Das Modell nutzt ConvNeXt für die visuelle Merkmalsextraktion und verarbeitet jede Frame unabhängig, um Echtzeitverarbeitung und Skalierbarkeit für lange Videosequenzen zu ermöglichen. Die fusionierten visuellen und textuellen Merkmale werden dann einem Transformer-Encoder zugeführt, der komplexe Beziehungen erfasst und eine vereinheitlichte Darstellung für die Caption-Generierung liefert.

Der Streaming-Decoder von MIRA-CAP ist speziell für die Echtzeit-Generierung von Beschreibungen für ungeschnittene Videos konzipiert. Er verarbeitet Video-Frames sequenziell und erzeugt inkrementell Beschreibungen. Durch die Verwendung eines Clustering-basierten Gedächtniskompressionsverfahrens wird der Speicher dynamisch verwaltet, wodurch eine effiziente Speicherung relevanter visueller Informationen über die Zeit hinweg gewährleistet wird, ohne dass der Speicherbedarf exponentiell ansteigt. Beschreibungen werden an bestimmten Dekodierungspunkten generiert, wobei der Decoder kausale Aufmerksamkeit anwendet, um die zeitliche Reihenfolge zu wahren.

Adaptive Datensatzbereinigung und Evaluierung

Um die Qualität der Trainingsdaten zu verbessern, setzt MIRA-CAP eine adaptive Datensatzbereinigung ein. Hierbei werden synthetische Beschreibungen für jedes Bild generiert und deren semantische Übereinstimmung mit den Originalbeschreibungen bewertet. Paare mit geringer Übereinstimmung werden entfernt, während eine Schwelle für die Vielfalt beibehalten wird, um seltene oder einzigartige visuelle Szenen zu bewahren. Dies gewährleistet, dass das Modell aus einem saubereren und repräsentativeren Datensatz lernt.

Die Evaluierung und der Feedback-Loop in MIRA-CAP nutzen die Polos-Metrik, die eng mit menschlichen Urteilen übereinstimmt. Polos bewertet Beschreibungen basierend auf semantischer Ähnlichkeit und kontextueller Relevanz und liefert Teilergebnisse für Aspekte wie Objekterkennung, zeitliche Genauigkeit und Szenenkontext. Dieser dynamische Feedback-Loop ermöglicht es dem Modell, seine Parameter iterativ anzupassen, um die Beschreibungsqualität kontinuierlich zu optimieren und Fehler wie Halluzinationen oder zeitliche Fehlausrichtungen zu minimieren.

Fazit

Die Forschung im Bereich der Vision-Language Models schreitet mit der Einführung gedächtnisgestützter Architekturen wie EPOS-VLM und MIRA-CAP deutlich voran. Diese Modelle zeigen, dass die Integration eines episodischen Gedächtnisses und die gemeinsame Modellierung von Wahrnehmung, Gedächtnis und Aktion entscheidend sind, um die Herausforderungen der semantischen Konsistenz und des Echtzeit-Captioning zu meistern. Die erzielten Verbesserungen in der Beschreibungsqualität, der Konsistenz und der Effizienz unterstreichen das Potenzial dieser Ansätze für zukünftige KI-Anwendungen, insbesondere in Bereichen, die ein tiefes und konsistentes Verständnis visueller Umgebungen erfordern.

Bibliographie

- Galliena, T., Rosa, S., Apicella, T., Morerio, P., Del Bue, A., & Natale, L. (2026). Memory-Augmented Vision-Language Agents for Persistent and Semantically Consistent Object Captioning. arXiv preprint arXiv:2603.24257. - Umirzakova, S., Muksimova, S., Mardieva, S., Sultanov Baxtiyarovich, M., & Cho, Y.-I. (2024). MIRA-CAP: Memory-Integrated Retrieval-Augmented Captioning for State-of-the-Art Image and Video Captioning. Sensors (Basel), 24(24), 8013. PMC11679459. - Kinney, S. (2026). Memory Systems for AI Agents: What the Research Says and What You Can Actually Build. stevekinney/stevekinney.net. - Lei, J., Wang, L., Shen, Y., Yu, D., Berg, T. L., & Bansal, M. (2020). MART: Memory-Augmented Recurrent Transformer for Coherent Video Paragraph Captioning. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 2603–2614. aclanthology.org/2020.acl-main.233.pdf. - Chen, X., & Zitnick, C. L. (2014). Learning a Recurrent Visual Representation for Image Caption Generation. arXiv preprint arXiv:1411.5654. - Fei, Z. (2023). Memory-Augmented Image Captioning. AAAI. aaai.org/papers/01317-memory-augmented-image-captioning.