Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Forschung im Bereich der Künstlichen Intelligenz (KI) hat in den letzten Jahren bedeutende Fortschritte gemacht, insbesondere im multimodalen Lernen, das sich mit der Verarbeitung und dem Verstehen verschiedener Datenmodalitäten wie Text und Bild befasst. Während Ansätze wie "Thinking with Text" (z.B. Chain-of-Thought) und "Thinking with Images" die Argumentationsfähigkeiten von großen Sprachmodellen (LLMs) und Vision-Language Models (VLMs) erheblich verbessert haben, stoßen diese Paradigmen an inhärente Grenzen. Bilder erfassen lediglich einzelne Momente und können dynamische Prozesse oder kontinuierliche Veränderungen nicht adäquat darstellen. Zudem behindert die Trennung von Text und Bild als eigenständige Modalitäten ein wirklich einheitliches multimodales Verständnis und eine entsprechende Generierung.
Ein neuer Forschungsansatz, bekannt als "Thinking with Video", schlägt die Nutzung von Videogenerierungsmodellen vor, um visuelle und textuelle Argumentation in einem vereinheitlichten, zeitlichen Rahmen zu verbinden. Dieses Paradigma ermöglicht dynamische, menschenähnliche Denkprozesse, die über die statischen Beschränkungen bildbasierter Argumentation hinausgehen und die getrennte Verarbeitung von Modalitäten überwinden. Es eröffnet neue Möglichkeiten für die KI, komplexe Szenarien zu verstehen und kreative Lösungen zu entwickeln, ähnlich wie menschliche Vorstellungskraft und visuelles Denken funktionieren.
Zur Unterstützung und Validierung dieses innovativen Ansatzes wurde der "VideoThinkBench" entwickelt. Dieser umfassende Benchmark ist speziell darauf ausgelegt, die Argumentationsfähigkeiten von Videogenerierungsmodellen zu evaluieren. Er gliedert sich in zwei Hauptkategorien von Aufgaben:
Diese Kategorie bewertet die Fähigkeit von Modellen, visuelle Informationen dynamisch zu verarbeiten und zu interpretieren. Beispiele hierfür sind:
Diese Aufgaben testen die Fähigkeit von Modellen, textbasierte Argumentation innerhalb generierter Videos zu demonstrieren. Sie sind an etablierte Benchmarks angepasst und umfassen:
Die Entwicklung von "VideoThinkBench" stellt einen entscheidenden Schritt dar, um die Leistungsfähigkeit und die Grenzen von Videogenerierungsmodellen systematisch zu erfassen und zu vergleichen.
Erste Evaluierungen auf dem VideoThinkBench zeigen, dass Modelle wie Sora-2 im Rahmen des "Thinking with Video"-Paradigmas bemerkenswerte Argumentationsfähigkeiten aufweisen. Insbesondere übertrifft Sora-2 in mehreren vision-zentrierten Aufgaben, wie den "Eyeballing Puzzles", den aktuellen Stand der Technik bei Vision-Language Models (VLMs). Dies unterstreicht die einzigartigen Vorteile des dynamischen visuellen Denkens, das durch Videogenerierungsmodelle ermöglicht wird.
Auch in text-zentrierten Aufgaben erzielt Sora-2 beeindruckende Ergebnisse, darunter eine Genauigkeit von 98,9% bei GSM8K, 94,0% bei MATH und 75,5% bei MMMU. Diese Leistungen deuten darauf hin, dass die Videogenerierung das Potenzial hat, als einheitliches multimodales Argumentationsparadigma zu fungieren, das sowohl visuelles als auch textuelles Verständnis und Generierung integriert.
Die systematische Evaluierung auf VideoThinkBench führte zu mehreren zentralen Erkenntnissen:
Trotz der vielversprechenden Fortschritte stehen Vision-Language Models (VLMs) und das "Thinking with Video"-Paradigma noch vor Herausforderungen. Dazu gehören die Komplexität der Modelle, die Notwendigkeit umfangreicher Rechenressourcen, potenzielle Verzerrungen in den Trainingsdatensätzen und die Schwierigkeit, präzise und umfassende Bewertungsmethoden zu entwickeln. Die Forschung widmet sich diesen Aspekten intensiv, um robustere und zuverlässigere KI-Systeme zu schaffen.
Zukünftige Forschungsrichtungen umfassen die Entwicklung besserer Datensätze für ein tiefgreifenderes kompositorisches Verständnis, verbesserte Bewertungsmethoden zur Erfassung individueller Fähigkeiten von VLMs (z.B. Attributerkennung, relationales Denken) und die Anwendung dieser Modelle in Bereichen wie Robotik, medizinische Diagnosen und die Schaffung interaktiver KI-Systeme, die menschliche Gesten und Emotionen verstehen können.
Das "Thinking with Video"-Paradigma stellt einen bedeutenden Schritt in der Entwicklung multimodaler KI dar, indem es die Grenzen traditioneller Ansätze überwindet und das Potenzial für eine umfassendere, dynamischere und menschenähnlichere Argumentation in intelligenten Systemen eröffnet.
***
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen