Multimodale Sprachmodelle (MLMs) stehen weiterhin vor Herausforderungen bei grundlegenden visuellen Wahrnehmungsaufgaben, in denen spezialisierte Modelle herausragen. Aufgaben, die Schlussfolgerungen über 3D-Strukturen erfordern, profitieren von der Tiefenschätzung, und Schlussfolgerungen über 2D-Objektinstanzen profitieren von der Objekterkennung. Allerdings können MLMs keine Zwischentiefen oder Boxen erzeugen, über die sie schlussfolgern können. Die Feinabstimmung von MLMs auf relevante Daten lässt sich nicht gut verallgemeinern, und die Auslagerung von Berechnungen an spezialisierte Visionstools ist zu rechenintensiv und speicherineffizient.
Um dies zu beheben, wurden Wahrnehmungs-Token eingeführt, intrinsische Bilddarstellungen, die dazu dienen, Schlussfolgerungsaufgaben zu unterstützen, bei denen Sprache nicht ausreicht. Wahrnehmungs-Token fungieren als zusätzliche Schlussfolgerungs-Token, ähnlich wie Chain-of-Thought-Prompts in Sprachmodellen. Bei einer tiefenbezogenen Aufgabe kann beispielsweise ein mit Wahrnehmungs-Token erweitertes MLM schlussfolgern, indem es eine Tiefenkarte als Token generiert, wodurch es das Problem effektiv lösen kann.
AURORA, eine Trainingsmethode, erweitert MLMs mit Wahrnehmungs-Token für verbesserte Schlussfolgerungen über visuelle Eingaben. AURORA nutzt ein VQVAE, um Zwischenbilddarstellungen wie Tiefenkarten in ein tokenisiertes Format und Begrenzungsrahmen-Token umzuwandeln, die dann in einem Multitasking-Trainingsframework verwendet werden.
AURORA erzielt bemerkenswerte Verbesserungen bei verschiedenen Zähl-Benchmarks: +10,8 % bei BLINK, +11,3 % bei CVBench und +8,3 % bei SEED-Bench und übertrifft damit Feinabstimmungsansätze bei der Verallgemeinerung über Datensätze hinweg. Es verbessert auch die relative Tiefe: über +6 % bei BLINK. Mit Wahrnehmungs-Token erweitert AURORA den Anwendungsbereich von MLMs über sprachbasierte Schlussfolgerungen hinaus und ebnet den Weg für effektivere visuelle Schlussfolgerungsfähigkeiten.
Wahrnehmungs-Token ermöglichen es MLMs, über die reine Sprachverarbeitung hinauszugehen und ein tieferes Verständnis von visuellen Szenen zu entwickeln. Anstatt sich ausschließlich auf textuelle Beschreibungen zu stützen, können die Modelle durch die Integration von Tiefeninformationen und Objektlokalisierungen komplexere Aufgaben bewältigen. Dies ist besonders relevant für Anwendungen, die ein räumliches Verständnis erfordern, wie z.B. die Navigation von Robotern oder die Interpretation von medizinischen Bildern.
Die Entwicklung von AURORA stellt einen wichtigen Schritt in der Weiterentwicklung von MLMs dar. Durch die Verwendung eines VQVAE und eines Multitasking-Trainingsframeworks wird die Integration von Wahrnehmungs-Token effizient und effektiv gestaltet. Der Curriculum-Learning-Ansatz sorgt dafür, dass das Modell schrittweise lernt und dabei bereits erworbenes Wissen nicht vergisst. Dies ist entscheidend für die Stabilität und Robustheit des Trainingsprozesses.
Die erzielten Ergebnisse auf verschiedenen Benchmarks belegen das Potenzial von Wahrnehmungs-Token und AURORA. Die signifikanten Verbesserungen bei der relativen Tiefenschätzung und der Objektzählung zeigen, dass MLMs durch die Integration von visuellen Wahrnehmungsinformationen deutlich leistungsfähiger werden. Diese Entwicklung eröffnet neue Möglichkeiten für die Anwendung von MLMs in Bereichen wie der Robotik, der medizinischen Bildgebung und der virtuellen Realität.
Die Forschung an Wahrnehmungs-Token und AURORA befindet sich noch in einem frühen Stadium, aber die bisherigen Ergebnisse sind vielversprechend. Zukünftige Forschung könnte sich auf die Erweiterung des Anwendungsbereichs von Wahrnehmungs-Token auf andere visuelle Aufgaben konzentrieren, sowie auf die Entwicklung noch effizienterer Trainingsmethoden. Die Integration von Wahrnehmungs-Token könnte ein Schlüssel zur Entwicklung von wirklich intelligenten multimodalen Systemen sein.
Bibliographie Bigverdi, M., Luo, Z., Hsieh, C.-Y., Shen, E., Chen, D., Shapiro, L. G., & Krishna, R. (2024). Perception Tokens Enhance Visual Reasoning in Multimodal Language Models. arXiv preprint arXiv:2412.03548. Bigverdi, M., Luo, Z., Hsieh, C.-Y., Shen, E., Chen, D., Shapiro, L. G., & Krishna, R. (2024). Perception Tokens Enhance Visual Reasoning in Multimodal Language Models. arXiv preprint arXiv:2412.03548v2. Ren, B., Li, X., Weber, C., Hafez, A., & Wermter, S. (2023). Multimodal Large Language Models for Robot Manipulation: A Pilot Study on Visual Prompting. In 2023 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS) (pp. 1-8). IEEE.