Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Multimodale KI-Modelle stehen zunehmend vor der Herausforderung, immer längere und komplexere Dokumente zu verarbeiten. Die genaue Methodik, wie diese Modelle effektiv für solche Aufgaben trainiert werden können, bleibt jedoch oft ein Betriebsgeheimnis. Eine neue Forschungsarbeit von ByteDance Seed und der Hong Kong University of Science and Technology (HKUST) beleuchtet nun detailliert, welche Trainingsstrategien für Bild-Sprach-Modelle (Vision-Language Models, VLMs) im Umgang mit langen Dokumenten am wirksamsten sind. Die Studie kommt zu dem Ergebnis, dass das Stellen von Fragen an die Modelle deutlich leistungsfähiger ist als das bloße Transkribieren von Texten.
Die Forscher entwickelten ein Modell namens MMProLong, das auf dem Open-Source-Modell Qwen2.5-VL von Alibaba basiert. Dieses Modell konnte im Rahmen der Studie selbst wesentlich größere und komplexere Konkurrenzmodelle übertreffen, was die Effektivität des vorgeschlagenen Trainingsansatzes unterstreicht.
Moderne multimodale KI-Modelle müssen in der Lage sein, mit immer umfangreicheren Eingaben umzugehen. Dies reicht von umfassenden PDF-Sammlungen mit gerenderten Seiten über stundenlange Videosequenzen bis hin zu intelligenten Agenten, die Aufgaben über viele Schritte hinweg kontextuell verfolgen müssen. Führende KI-Forschungseinrichtungen wie OpenAI, Google und Alibaba werben mit Kontextfenstern von bis zu einer Million Token, die nicht nur reinen Text, sondern auch Tausende von Seitenbildern oder Videoframes aufnehmen können. Die Autoren der Studie bemängeln jedoch, dass technische Berichte selten detaillierte Informationen darüber liefern, welche Daten ein Modell in welcher Zusammensetzung für diese Fähigkeiten benötigt.
Ein zentrales Ergebnis der Studie mag auf den ersten Blick trivial erscheinen: Wenn ein multimodales Modell lernen soll, eine spezifische Information in einem Hundert-Seiten-Dokument zu lokalisieren, ist es wenig hilfreich, das Modell lediglich den Text jeder Seite transkribieren zu lassen. Deutlich effektiver ist es, dem Modell Fragen zu stellen, deren Antworten irgendwo in diesen Seiten verborgen sind. Dieser Ansatz zwingt das Modell, den Kontext aktiv zu verstehen und relevante Informationen gezielt zu extrahieren.
Die Forscher haben zwei unterschiedliche Trainingsmethoden direkt miteinander verglichen. Im ersten Szenario musste das Modell eine Texterkennungsaufgabe durchführen, entweder über alle Seiten eines Dokuments hinweg oder für eine kleine Auswahl an Seiten, wobei die restlichen Seiten als Ablenkung im Kontext verblieben. Dieser Ansatz simulierte eine typische OCR-Aufgabe.
Im zweiten Szenario generierten die Forscher mithilfe eines weiteren Modells (Seed 2.0 von ByteDance) Frage-Antwort-Paare für spezifische Abschnitte eines Dokuments. Diese Fragen wurden dann zusammen mit dem vollständigen Dokument in den Trainingsprozess integriert. Das Modell musste somit die Fähigkeit entwickeln, die relevante Passage innerhalb eines umfangreichen Kontextes zu identifizieren, um die gestellte Frage zu beantworten.
Die Ergebnisse zeigten, dass reine Texterkennung als Trainingsaufgabe die Leistung des Modells im Vergleich zum Ausgangszustand sogar verschlechterte. Im Gegensatz dazu führte das Training mit Frage-Antwort-Paaren zu signifikanten Leistungssteigerungen. Dies deutet darauf hin, dass Modelle erst dann effektiv lernen, lange Texte zu navigieren und zu verstehen, wenn sie Informationen gezielt filtern und in einen übergeordneten Zusammenhang einordnen müssen.
Die Experimente lieferten drei weitere wichtige Erkenntnisse für das Training von LMMs mit langen Kontexten:
Mit der in der Studie entwickelten Trainingsmethode und einem vergleichsweise geringen Trainingsbudget konnte MMProLong nicht nur sein Ausgangsmodell signifikant übertreffen, sondern auch mehrere deutlich größere Open-Source-Modelle wie InternVL3-38B und Gemma3-27B. Obwohl MMProLong nur mit 128.000 Token trainiert wurde, zeigte es auch bei Eingabelängen von 256.000 und sogar 512.000 Token eine bemerkenswerte Stabilität. Das ursprüngliche Modell hingegen brach bei diesen höheren Token-Bereichen stark ein.
Diese verbesserte Fähigkeit zur Verarbeitung langer Kontexte ist nicht auf die spezifischen Trainingsaufgaben beschränkt, sondern generalisiert auch auf andere Bereiche, wie das Verstehen von langen Videos, wofür das Modell nicht explizit trainiert wurde. Ein zusätzliches Transfer-Experiment bestätigte die Wirksamkeit des Trainingsrezepts auch auf dem bereits für lange Kontexte optimierten Qwen3-VL-8B.
Die Studie ist zudem bemerkenswert, da sie einen alternativen Ansatz zu den vielbeachteten Arbeiten von Deepseek zum gleichen Problemfeld darstellt. Deepseek konzentriert sich darauf, die Langzeitgedächtnisfähigkeit von KI-Modellen zu erweitern, indem Texte als Bilder verarbeitet und stark komprimiert werden, beispielsweise durch einen Encoder, der visuelle Informationen inhaltsbasiert neu sortiert. ByteDance Seed verfolgt hingegen den Ansatz, die Trainingsdaten selbst zu optimieren, anstatt primär die Architektur anzupassen. Beide Forschungsrichtungen zielen darauf ab, Engpässe in der Verarbeitung langer Kontexte zu überwinden, ein Bereich, in dem chinesische KI-Anbieter derzeit intensiv forschen.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen