Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Als Senior Specialist Journalist und Analyst für Mindverse freue ich mich, Ihnen heute tiefere Einblicke in eine aktuelle Entwicklung im Bereich der Künstlichen Intelligenz zu geben. NVIDIA, ein führendes Unternehmen in der KI-Forschung, hat ein innovatives Framework namens "Long Grounded Thoughts" vorgestellt, das eine signifikante Weiterentwicklung im Training multimodaler Modelle darstellt. Dieses Framework ermöglicht die Generierung von 196.000 zeitlich verankerten Multiple-Choice-Fragen (MCQs) aus Videodaten, ergänzt durch detaillierte "Chain-of-Thought"-Begründungen (CoTs). Diese Entwicklung hat das Potenzial, die Art und Weise, wie KI-Modelle visuelle Informationen verarbeiten und daraus schlussfolgern, grundlegend zu verändern.
Multimodale Modelle, die sowohl visuelle als auch textuelle Informationen verarbeiten können, sind ein zentrales Forschungsfeld in der KI. Die Fähigkeit, komplexe visuelle Szenarien zu verstehen, zeitliche Abhängigkeiten zu erkennen und kohärente logische Schlussfolgerungen zu ziehen, ist entscheidend für den Fortschritt in Bereichen wie Robotik, autonomen Systemen und der allgemeinen intelligenten Interaktion. Bislang fehlte es jedoch an systematischen Ansätzen zur Erstellung großer, qualitativ hochwertiger und vor allem vision-zentrierter Datensätze, die über einfache visuelle Mathematik hinausgehen.
Bestehende Ansätze zur Generierung von Reasoning-Datensätzen waren oft entweder in ihrem Umfang begrenzt oder auf spezifische, weniger komplexe Aufgaben zugeschnitten. Die Synthese langer Begründungsketten mit komplexen Strukturen, die beispielsweise Überprüfung, Rückverfolgung oder die Definition von Unterzielen umfassen, stellte eine besondere Herausforderung dar. Hier setzt "Long Grounded Thoughts" an und versucht, diese Lücke zu schließen.
Das von NVIDIA entwickelte Framework ist als mehrstufige Pipeline konzipiert, die darauf abzielt, die Qualität und Komplexität der generierten Daten zu maximieren. Die Kernschritte lassen sich wie folgt zusammenfassen:
In dieser initialen Phase werden strukturierte temporale Metadaten aus den Videodaten extrahiert. Dies umfasst:
Diese Metadaten bilden die Grundlage für die spätere, ereignisbasierte Fragengenerierung.
Aufbauend auf den extrahierten Metadaten werden hier Multiple-Choice-Fragen generiert. Es gibt zwei Hauptaktionen:
Ein besonderes Augenmerk liegt auf der Diversität der Fragen. Pro Video werden verschiedene Fragetypen erzwungen, darunter Fragen zur zeitlichen Abfolge, zur Sprach-Bild-Ausrichtung, zu Szenenübergängen, Ursache-Wirkungs-Beziehungen, Zustandsänderungen und audiovisuellen Zusammenhängen. Dies stellt sicher, dass die Modelle ein breites Spektrum an visuellen Reasoning-Fähigkeiten trainieren.
In dieser Phase werden erste, einfache "Chain-of-Thought"-Begründungen für die generierten MCQs erstellt. Hierfür kommt beispielsweise das Modell Qwen2.5-VL-Instruct zum Einsatz, das pro MCQ bis zu zehn Begründungen liefert.
Die einfachen CoTs werden in dieser Phase durch den Einsatz leistungsstärkerer LLMs wie DeepSeek-R1-Distilled-Qwen-32B erweitert. Dies führt zu tiefergehenden und komplexeren Begründungsketten.
Diese Phase ist entscheidend für die Qualität der Begründungen. Hier werden die in Phase 0 extrahierten Videoereignis-Metadaten direkt in die Begründungsketten integriert. Das bedeutet, dass die Modelle lernen, ihre Schlussfolgerungen explizit auf temporale Beweise aus dem Video zu stützen. Beispielsweise wird bei einer Frage nach einer Aktion im Video nicht nur eine textuelle Begründung geliefert, sondern auch auf den genauen Zeitpunkt und das entsprechende Ereignis im Video verwiesen (z.B. "Sprache: 5.2s-6.8s: 'Salz hinzufügen'"). Dies erhöht die Nachvollziehbarkeit und Genauigkeit der Reasoning-Prozesse erheblich.
Das Framework wurde mit dem Ziel entwickelt, sowohl in Bezug auf die Datenmenge als auch auf die Komplexität der generierten Probleme zu skalieren. Es nutzt fünf verschiedene Videodatensätze (LLaVA-Video-178K, NExT-QA, CLEVRER, PE-Video, Ego4D) und generiert insgesamt 196.000 MCQs. Ein besonderer Ansatz zur Erhöhung der Diversität und Komplexität der Fragen ist die Verwendung von objektzentrierten Metadaten, wie Bounding Boxes und Objekt-Tags. Diese Informationen leiten das LLM an, Fragen zu spezifischen visuellen Elementen zu formulieren.
Um die Komplexität weiter zu steigern, werden in einem zweiten Schritt einfachere MCQs zu komplexeren, mehrstufigen Problemen zusammengeführt. Dies erfordert von den Modellen, die Probleme zu zerlegen und höherstufige Schlussfolgerungen zu ziehen. Die Generierung der Begründungsketten erfolgt ebenfalls in zwei Stufen: Zuerst werden CoTs von VLMs destilliert und anschließend mit Reasoning LLMs erweitert, um eine größere Tiefe und Reichhaltigkeit zu erzielen.
Die Evaluation des finetuned Qwen2.5-VL-7B-Modells auf den generierten Daten zeigt signifikante Verbesserungen gegenüber bestehenden Open-Data-Baselines in verschiedenen vision-zentrierten Benchmarks wie V*Bench, CV-Bench und MMStar-V. Bemerkenswert ist, dass die besten Konfigurationen des Modells sogar starke Closed-Data-Modelle wie MiMo-VL-7B-RL übertreffen oder erreichen.
Ein weiterer wichtiger Befund ist der positive Transfer-Effekt auf andere Modalitäten. Obwohl die Daten ausschließlich vision-zentriert sind, zeigt das trainierte Modell Verbesserungen beim reinen Text-Reasoning (MMLU-Pro) und sogar beim Audio-Reasoning (MMAU). Auch bei der Bewertung von Open-Ended Embodied QA-Aufgaben sind deutliche Fortschritte zu verzeichnen. Dies deutet darauf hin, dass die komplexen Reasoning-Strukturen in den generierten Daten generalisierbare interne Repräsentationen fördern, die über die ursprüngliche Modalität hinaus wirksam sind.
Für Unternehmen, die an der Implementierung fortschrittlicher KI-Lösungen interessiert sind, bietet "Long Grounded Thoughts" mehrere entscheidende Vorteile:
NVIDIAs "Long Grounded Thoughts" stellt einen bedeutenden Schritt in der Entwicklung multimodaler KI-Modelle dar. Durch die systematische Generierung von zeitlich verankerten Video-MCQs und detaillierten Begründungsketten wird eine neue Qualität von Trainingsdaten geschaffen. Dies ermöglicht es KI-Modellen, ein tieferes Verständnis für visuelle Zusammenhänge zu entwickeln und komplexere Reasoning-Aufgaben zu bewältigen. Die erzielten Leistungsverbesserungen und die Fähigkeit zum Transfer-Lernen unterstreichen das Potenzial dieses Ansatzes für eine Vielzahl von B2B-Anwendungen, die eine fortschrittliche visuelle Intelligenz erfordern. Die kontinuierliche Forschung in diesem Bereich wird voraussichtlich zu noch robusteren und vielseitigeren KI-Systemen führen, die die Grenzen dessen, was maschinelles Lernen leisten kann, weiter verschieben.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen