Effektives Training multimodaler Sprachmodelle durch Frage-Antwort-Strategien

Kategorien:

No items found.

Freigegeben:

May 25, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Eine aktuelle Studie von ByteDance und der Hong Kong University of Science and Technology zeigt, dass das Training von multimodalen Sprachmodellen (LMMs) mit Frage-Antwort-Paaren effektiver ist als mit reiner Texterkennung, insbesondere bei langen Dokumenten.
Reine Texterkennung als Trainingsaufgabe kann die Leistung von LMMs sogar verschlechtern, während Frage-Antwort-Training deutliche Verbesserungen erzielt.
Das entwickelte Modell MMProLong, basierend auf Qwen2.5-VL, übertrifft trotz bescheidenerer Trainingsressourcen deutlich größere Konkurrenzmodelle.
Eine breit gefächerte Mischung aus kürzeren und längeren Trainingsbeispielen ist vorteilhafter als die Konzentration auf sehr lange Dokumente.
Die Fähigkeit, relevante Informationen zu finden, ist entscheidender als die reine Schlussfolgerung.
Das Modell behält seine Fähigkeiten bei kürzeren Aufgaben auch bei ausschließlichem Training mit langen Frage-Antwort-Daten weitgehend bei.
Die in der Studie verwendeten Methoden zur Datenoptimierung stehen im Kontrast zu architekturzentrierten Ansätzen anderer Forschungseinrichtungen wie Deepseek.

Multimodale KI-Modelle stehen zunehmend vor der Herausforderung, immer längere und komplexere Dokumente zu verarbeiten. Die genaue Methodik, wie diese Modelle effektiv für solche Aufgaben trainiert werden können, bleibt jedoch oft ein Betriebsgeheimnis. Eine neue Forschungsarbeit von ByteDance Seed und der Hong Kong University of Science and Technology (HKUST) beleuchtet nun detailliert, welche Trainingsstrategien für Bild-Sprach-Modelle (Vision-Language Models, VLMs) im Umgang mit langen Dokumenten am wirksamsten sind. Die Studie kommt zu dem Ergebnis, dass das Stellen von Fragen an die Modelle deutlich leistungsfähiger ist als das bloße Transkribieren von Texten.

Die Forscher entwickelten ein Modell namens MMProLong, das auf dem Open-Source-Modell Qwen2.5-VL von Alibaba basiert. Dieses Modell konnte im Rahmen der Studie selbst wesentlich größere und komplexere Konkurrenzmodelle übertreffen, was die Effektivität des vorgeschlagenen Trainingsansatzes unterstreicht.

Moderne multimodale KI-Modelle müssen in der Lage sein, mit immer umfangreicheren Eingaben umzugehen. Dies reicht von umfassenden PDF-Sammlungen mit gerenderten Seiten über stundenlange Videosequenzen bis hin zu intelligenten Agenten, die Aufgaben über viele Schritte hinweg kontextuell verfolgen müssen. Führende KI-Forschungseinrichtungen wie OpenAI, Google und Alibaba werben mit Kontextfenstern von bis zu einer Million Token, die nicht nur reinen Text, sondern auch Tausende von Seitenbildern oder Videoframes aufnehmen können. Die Autoren der Studie bemängeln jedoch, dass technische Berichte selten detaillierte Informationen darüber liefern, welche Daten ein Modell in welcher Zusammensetzung für diese Fähigkeiten benötigt.

Frage-Antwort-Paare sind effektiver als reine Texterkennung

Ein zentrales Ergebnis der Studie mag auf den ersten Blick trivial erscheinen: Wenn ein multimodales Modell lernen soll, eine spezifische Information in einem Hundert-Seiten-Dokument zu lokalisieren, ist es wenig hilfreich, das Modell lediglich den Text jeder Seite transkribieren zu lassen. Deutlich effektiver ist es, dem Modell Fragen zu stellen, deren Antworten irgendwo in diesen Seiten verborgen sind. Dieser Ansatz zwingt das Modell, den Kontext aktiv zu verstehen und relevante Informationen gezielt zu extrahieren.

Die Forscher haben zwei unterschiedliche Trainingsmethoden direkt miteinander verglichen. Im ersten Szenario musste das Modell eine Texterkennungsaufgabe durchführen, entweder über alle Seiten eines Dokuments hinweg oder für eine kleine Auswahl an Seiten, wobei die restlichen Seiten als Ablenkung im Kontext verblieben. Dieser Ansatz simulierte eine typische OCR-Aufgabe.

Im zweiten Szenario generierten die Forscher mithilfe eines weiteren Modells (Seed 2.0 von ByteDance) Frage-Antwort-Paare für spezifische Abschnitte eines Dokuments. Diese Fragen wurden dann zusammen mit dem vollständigen Dokument in den Trainingsprozess integriert. Das Modell musste somit die Fähigkeit entwickeln, die relevante Passage innerhalb eines umfangreichen Kontextes zu identifizieren, um die gestellte Frage zu beantworten.

Die Ergebnisse zeigten, dass reine Texterkennung als Trainingsaufgabe die Leistung des Modells im Vergleich zum Ausgangszustand sogar verschlechterte. Im Gegensatz dazu führte das Training mit Frage-Antwort-Paaren zu signifikanten Leistungssteigerungen. Dies deutet darauf hin, dass Modelle erst dann effektiv lernen, lange Texte zu navigieren und zu verstehen, wenn sie Informationen gezielt filtern und in einen übergeordneten Zusammenhang einordnen müssen.

Diversität schlägt Spezialisierung

Die Experimente lieferten drei weitere wichtige Erkenntnisse für das Training von LMMs mit langen Kontexten:

Bedeutung der Datendiversität: Es hat sich gezeigt, dass es nicht effizient ist, das Modell primär mit sehr langen Dokumenten am oberen Ende des Kontextfensters zu trainieren. Eine breitere Mischung aus kürzeren und längeren Beispielen erweist sich als wesentlich zuverlässiger. Die Fähigkeit, lange Kontexte zu verarbeiten, ist demnach keine an eine bestimmte Länge gebundene Fertigkeit, sondern erfordert ein flexibles Suchen und Verstehen über unterschiedliche Distanzen hinweg.
Fokus auf Informationsfindung: Der eigentliche Engpass liegt in der Identifizierung der relevanten Passage innerhalb eines Dokuments und weniger in der reinen Schlussfolgerung. Eine Mischung aus Trainingsaufgaben, die stark auf Extraktion ausgerichtet sind, ergänzt durch einen geringeren Anteil an Rechenaufgaben, lieferte die besten Ergebnisse. Dies betont die Relevanz der präzisen Lokalisierung von Informationen.
Erhalt kurzer Kontextfähigkeiten: Überraschenderweise ist die Beimischung kurzer Trainingsbeispiele, die bei reinen Text-Sprachmodellen üblich ist, nicht zwingend erforderlich. Das Modell behielt seine Kompetenzen bei kürzeren Aufgaben weitgehend bei, selbst wenn es ausschließlich mit langen Frage-Antwort-Daten trainiert wurde. Dies könnte darauf zurückzuführen sein, dass das Frage-Antwort-Format, selbst bei sehr langen Kontexten, die Aufgabe in einem vertrauten "Instruction-Following"-Stil strukturiert.

Klein, aber stabil bis 512.000 Token

Mit der in der Studie entwickelten Trainingsmethode und einem vergleichsweise geringen Trainingsbudget konnte MMProLong nicht nur sein Ausgangsmodell signifikant übertreffen, sondern auch mehrere deutlich größere Open-Source-Modelle wie InternVL3-38B und Gemma3-27B. Obwohl MMProLong nur mit 128.000 Token trainiert wurde, zeigte es auch bei Eingabelängen von 256.000 und sogar 512.000 Token eine bemerkenswerte Stabilität. Das ursprüngliche Modell hingegen brach bei diesen höheren Token-Bereichen stark ein.

Diese verbesserte Fähigkeit zur Verarbeitung langer Kontexte ist nicht auf die spezifischen Trainingsaufgaben beschränkt, sondern generalisiert auch auf andere Bereiche, wie das Verstehen von langen Videos, wofür das Modell nicht explizit trainiert wurde. Ein zusätzliches Transfer-Experiment bestätigte die Wirksamkeit des Trainingsrezepts auch auf dem bereits für lange Kontexte optimierten Qwen3-VL-8B.

Die Studie ist zudem bemerkenswert, da sie einen alternativen Ansatz zu den vielbeachteten Arbeiten von Deepseek zum gleichen Problemfeld darstellt. Deepseek konzentriert sich darauf, die Langzeitgedächtnisfähigkeit von KI-Modellen zu erweitern, indem Texte als Bilder verarbeitet und stark komprimiert werden, beispielsweise durch einen Encoder, der visuelle Informationen inhaltsbasiert neu sortiert. ByteDance Seed verfolgt hingegen den Ansatz, die Trainingsdaten selbst zu optimieren, anstatt primär die Architektur anzupassen. Beide Forschungsrichtungen zielen darauf ab, Engpässe in der Verarbeitung langer Kontexte zu überwinden, ein Bereich, in dem chinesische KI-Anbieter derzeit intensiv forschen.

Bibliographie

- ByteDance study finds that asking LMMs questions beats making it transcribe text for long document training. (2026, May 24). The Decoder. Retrieved from https://the-decoder.com/bytedance-study-finds-that-asking-lmms-questions-beats-making-it-transcribe-text-for-long-document-training/ - Training Long-Context Vision-Language Models Effectively with Generalization Beyond 128K Context. (n.d.). arXiv.org. Retrieved from https://arxiv.org/html/2605.13831 - How to Train Your Long-Context Visual Document Model. (n.d.). Emergent Mind. Retrieved from https://www.emergentmind.com/papers/2602.15257 - How to Train Your Long-Context Visual Document Model. (n.d.). arXiv.org. Retrieved from https://www.arxiv.org/pdf/2602.15257 - A Bounding Box is Worth One Token - Interleaving Layout and Text in a Large Language Model for Document Understanding. (n.d.). arXiv.org. Retrieved from https://arxiv.org/html/2407.01976v3 - ByteDance zeigt, was multimodale KI beim Lesen langer Dokumente wirklich lernen muss. (2026, May 24). The Decoder. Retrieved from https://the-decoder.de/bytedance-zeigt-was-multimodale-ki-beim-lesen-langer-dokumente-wirklich-lernen-muss/ - Text or Pixels? Evaluating Efficiency and Understanding of LLMs with Visual Text Inputs. (n.d.). aclanthology.org. Retrieved from https://aclanthology.org/findings/2025.findings-emnlp.558.pdf - Can LLMs Ask Good Questions? (n.d.). arXiv.org. Retrieved from https://arxiv.org/pdf/2501.03491 - How Accurate Are LLMs at Multi-Question Answering on Conversational Transcripts? (n.d.). aclanthology.org. Retrieved from https://aclanthology.org/2025.emnlp-industry.129.pdf - MMSearch-R1: Incentivizing LMMs to Search. (n.d.). arXiv.org. Retrieved from https://arxiv.org/html/2506.20670