Jetzt reinschauen – neue Umgebung live

Neue Ansätze zur Leistungsoptimierung multimodaler großer Sprachmodelle durch Reinforcement Learning und Datenmischstrategien

Kategorien:
No items found.
Freigegeben:
June 3, 2025

Artikel jetzt als Podcast anhören

Multimodale LLMs: Neue Trainingsmethode mit Reinforcement Learning und Datenmixturen optimiert Leistung

Die Weiterentwicklung von multimodalen großen Sprachmodellen (MLLMs) schreitet rasant voran. Ein vielversprechender Ansatz zur Verbesserung ihrer Fähigkeiten ist das Reinforcement Learning with Verifiable Rewards (RLVR). Dieser Ansatz hat bereits bei der Nachschulung von unimodalen LLMs zu beeindruckenden Ergebnissen geführt, insbesondere bei Aufgaben mit strukturierten, verifizierbaren Antworten. Die Anwendung von RLVR auf MLLMs eröffnet neue Möglichkeiten, stellt aber auch Herausforderungen dar, da Vision-Sprach-Aufgaben komplexer und heterogener sind und nuancierte visuelle, logische und räumliche Fähigkeiten erfordern.

Ein aktueller Forschungsbeitrag stellt einen systematischen Rahmen für die Nachschulung von MLLMs mit RLVR vor, der eine neuartige Datenmischstrategie beinhaltet. Der Fokus liegt dabei auf der Optimierung der Generalisierungs- und Schlussfolgerungsfähigkeiten der Modelle. Die Schulung von MLLMs mit RLVR auf mehreren Datensätzen birgt das Potenzial, die Leistung zu steigern, führt aber auch zu Konflikten zwischen den Zielen der verschiedenen Datensätze. Daher ist eine optimale Strategie für die Mischung der Datensätze entscheidend.

Der vorgestellte Rahmen umfasst zwei Hauptkomponenten:

Erstens wurde ein multimodaler RLVR-Rahmen für die Nachschulung mit mehreren Datensätzen entwickelt. Dafür wurde ein Datensatz zusammengestellt, der verschiedene verifizierbare Vision-Sprach-Probleme enthält. Dies ermöglicht ein domänenübergreifendes Online-RL-Lernen mit unterschiedlichen verifizierbaren Belohnungen.

Zweitens wurde eine Datenmischstrategie entwickelt, die darauf abzielt, das Ergebnis der RL-Feinabstimmung anhand der Verteilung der Datenmischung vorherzusagen und so die optimale Mischung zu bestimmen. Diese Strategie ermöglicht es, die Stärken der verschiedenen Datensätze zu kombinieren und gleichzeitig Konflikte zwischen den Zielen zu minimieren.

Umfassende Experimente zeigen, dass die Kombination aus domänenübergreifendem RLVR-Training und den entwickelten Mischvorhersagestrategien die allgemeinen Argumentationsfähigkeiten von MLLMs erheblich verbessern kann. Die beste Mischung steigerte die Genauigkeit des nachgeschulten Modells bei Out-of-Distribution-Benchmarks im Durchschnitt um 5,24 % im Vergleich zum gleichen Modell, das mit einer gleichmäßigen Datenmischung nachgeschult wurde, und um insgesamt 20,74 % im Vergleich zur Baseline vor der Feinabstimmung.

Diese Ergebnisse unterstreichen das Potenzial von RLVR in Kombination mit intelligenten Datenmischstrategien für die Weiterentwicklung von MLLMs. Die Fähigkeit, aus verschiedenen Datensätzen zu lernen und gleichzeitig die Generalisierungsfähigkeit zu verbessern, ist ein wichtiger Schritt auf dem Weg zu robusteren und leistungsfähigeren multimodalen KI-Systemen. Zukünftige Forschung könnte sich auf die Entwicklung noch komplexerer Mischstrategien und die Anwendung dieses Ansatzes auf weitere MLLM-Architekturen konzentrieren.

Die vorgestellte Methode bietet eine vielversprechende Richtung für die Verbesserung von MLLMs und könnte zu neuen Anwendungen in Bereichen wie Bildbeschreibung, visuelle Fragebeantwortung und Mensch-Computer-Interaktion führen. Die Forschungsergebnisse tragen dazu bei, das Verständnis der komplexen Dynamik beim Training von MLLMs zu vertiefen und ebnen den Weg für leistungsfähigere und vielseitigere KI-Systeme der Zukunft.

Bibliographie: - https://arxiv.org/abs/2505.24871 - https://arxiv.org/pdf/2505.24871 - https://deeplearn.org/arxiv/612839/modomodo:-multi-domain-data-mixtures-for-multimodal-llm-reinforcement-learning - https://chatpaper.com/chatpaper/zh-CN/paper/144142 - https://www.paperreading.club/page?id=311806 - https://lynl7130.github.io/ - https://chatpaper.com/chatpaper/?id=4&date=1748793600&page=1 - https://deeplearn.org/ - https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models - https://aclanthology.org/W18-5015.pdf
Was bedeutet das?

Wie können wir Ihnen heute helfen?

Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.