Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Die detaillierte Beschreibung von Videos, also die Generierung umfassender und kohärenter Textbeschreibungen von Videoinhalten, gewinnt in der künstlichen Intelligenz (KI) zunehmend an Bedeutung. Diese Technologie birgt großes Potenzial für verschiedene Anwendungsbereiche, darunter Videoverständnis, -generierung und verbesserte Mensch-Maschine-Interaktion. Ein Forschungsteam hat nun mit AuroraCap ein vielversprechendes System zur detaillierten Videobeschreibung vorgestellt und gleichzeitig einen neuen Benchmark für die Evaluierung solcher Systeme entwickelt.
Die detaillierte Videobeschreibung stellt die KI vor komplexe Herausforderungen. Anders als bei der Bildbeschreibung, die sich auf statische Inhalte konzentriert, müssen Videos in ihrer zeitlichen Abfolge und den darin ablaufenden Aktionen erfasst werden. Herkömmliche Modelle, die Videos lediglich als Abfolge von Einzelbildern betrachten, stoßen dabei schnell an ihre Grenzen. Sie kämpfen mit hohem Rechenaufwand und der Schwierigkeit, die zeitlichen Zusammenhänge in längeren Videosequenzen adäquat zu erfassen.
AuroraCap nutzt als Basis große, multimodale Sprachmodelle (LMMs), die sowohl Text- als auch Bilddaten verarbeiten können. Diese Modelle wurden ursprünglich für die Bildbeschreibung entwickelt und erreichen bereits beeindruckende Ergebnisse. Das Besondere an AuroraCap ist die effiziente Anpassung dieser Modelle an die Videobeschreibung, ohne dabei zusätzliche Parameter für die zeitliche Modellierung einzuführen. Um den Rechenaufwand zu reduzieren, kommt die sogenannte "Token Merging"-Strategie zum Einsatz. Dabei werden ähnliche Bildmerkmale (Tokens) in einem Transformer-Layer schrittweise zusammengefasst, wodurch die Anzahl der zu verarbeitenden Informationen reduziert wird. Überraschenderweise führt diese Strategie zu keinem nennenswerten Leistungsverlust. Im Gegenteil: AuroraCap zeigt in verschiedenen Benchmarks, wie beispielsweise Flickr30k, eine herausragende Leistung und übertrifft dabei sogar etablierte Modelle wie GPT-4V und Gemini-1.5 Pro.
Ein weiteres Problem bei der Weiterentwicklung der Videobeschreibung ist das Fehlen geeigneter Benchmarks. Bestehende Datensätze enthalten oft nur kurze, einfache Beschreibungen, die die Möglichkeiten fortschrittlicher KI-Modelle nicht ausreichend widerspiegeln. Um diese Lücke zu schließen, wurde im Rahmen der AuroraCap-Forschung der VDC-Benchmark (Video Detailed Captions) entwickelt. Dieser umfasst über tausend Videos mit detaillierten, strukturierten Beschreibungen, die vielfältige Informationen wie Objekterscheinungen, Kamerabewegungen und den zeitlichen Ablauf von Ereignissen umfassen.
Die Erstellung dieses Benchmarks erfolgte mithilfe von GPT-4o, einem fortschrittlichen Sprachmodell, das als Assistenzsystem für die Generierung von Beschreibungen eingesetzt wurde. Um die Qualität der Beschreibungen sicherzustellen, wurden die Videos in dichter Folge extrahiert und aus verschiedenen Perspektiven beschrieben. Abschließend erfolgte eine manuelle Qualitätsprüfung durch menschliche Experten.
Neben dem Benchmark wurde mit VDCscore auch eine neue Metrik zur Bewertung der Qualität von detaillierten Videobeschreibungen eingeführt. Herkömmliche Metriken wie METEOR, CIDEr und BLEU, die für maschinelle Übersetzungen oder kurze Bildunterschriften entwickelt wurden, erweisen sich bei längeren, detaillierten Beschreibungen als ungeeignet. VDCscore hingegen nutzt die Leistungsfähigkeit großer Sprachmodelle, um die Beschreibungen anhand kurzer Frage-Antwort-Paare zu bewerten.
Konkret wird die zu bewertende Beschreibung zunächst mithilfe des Sprachmodells in eine Reihe von prägnanten Frage-Antwort-Paaren zerlegt. Anschließend werden die Antworten des zu evaluierenden Systems mit den Referenzantworten verglichen. Durch den Einsatz von "Elo-Ranking", einer Methode zur Bewertung der Spielstärke im Schach, konnte gezeigt werden, dass VDCscore eine hohe Übereinstimmung mit menschlichen Beurteilungen der Beschreibungsqualität aufweist.
Die Kombination aus AuroraCap, VDC und VDCscore stellt einen bedeutenden Fortschritt im Bereich der detaillierten Videobeschreibung dar. AuroraCap demonstriert die Leistungsfähigkeit großer Sprachmodelle bei der Generierung umfassender Videobeschreibungen und der VDC-Benchmark setzt neue Maßstäbe für die Evaluierung solcher Systeme. Die neue Metrik VDCscore ermöglicht zudem eine objektive Bewertung der Beschreibungsqualität.
Diese Entwicklungen ebnen den Weg für eine Vielzahl neuer Anwendungen, die von detaillierten Videobeschreibungen profitieren können. Dazu zählen unter anderem die automatische Generierung von Untertiteln für Videos, die verbesserte Suche in Videoarchiven und die Entwicklung interaktiverer KI-Systeme, die Videos besser "verstehen" und darauf reagieren können.
Entdecken Sie die Vorteile gegenüber ChatGPT Plus
Sie nutzen bereits ChatGPT Plus? Das ist ein guter Anfang! Aber stellen Sie sich vor, Sie hätten Zugang zu allen führenden KI-Modellen weltweit, könnten mit Ihren eigenen Dokumenten arbeiten und nahtlos im Team kollaborieren.
Die professionelle KI-Plattform für Unternehmen – leistungsstärker, flexibler und sicherer als ChatGPT Plus. Mit über 50 Modellen, DSGVO-konformer Infrastruktur und tiefgreifender Integration in Unternehmensprozesse.
❌ Kein strukturierter Dokumentenvergleich
❌ Keine Bearbeitung im Dokumentkontext
❌ Keine Integration von Unternehmenswissen
✅ Gezielter Dokumentenvergleich mit Custom-Prompts
✅ Kontextbewusste Textbearbeitung im Editor
✅ Wissensbasierte Analyse & Zusammenfassungen
Erstellen Sie leistungsstarke Wissensdatenbanken aus Ihren Unternehmensdokumenten.Mindverse Studio verknüpft diese direkt mit der KI – für präzise, kontextbezogene Antworten auf Basis Ihres spezifischen Know-hows.DSGVO-konform, transparent und jederzeit nachvollziehbar.
❌ Nur ein Modellanbieter (OpenAI)
❌ Keine Modellauswahl pro Use Case
❌ Keine zentrale Modellsteuerung für Teams
✅ Zugriff auf über 50 verschiedene KI-Modelle
✅ Modellauswahl pro Prompt oder Assistent
✅ Zentrale Steuerung auf Organisationsebene
❌ Keine echte Teamkollaboration
❌ Keine Rechte- oder Rollenverteilung
❌ Keine zentrale Steuerung oder Nachvollziehbarkeit
✅ Teamübergreifende Bearbeitung in Echtzeit
✅ Granulare Rechte- und Freigabeverwaltung
✅ Zentrale Steuerung & Transparenz auf Organisationsebene
Nutzen Sie Mindverse Studio als zentrale Plattform für abteilungsübergreifende Zusammenarbeit.Teilen Sie Wissen, erstellen Sie gemeinsame Workflows und integrieren Sie KI nahtlos in Ihre täglichen Prozesse – sicher, skalierbar und effizient.Mit granularen Rechten, transparenter Nachvollziehbarkeit und Echtzeit-Kollaboration.
Sehen Sie Mindverse Studio in Aktion. Buchen Sie eine persönliche 30-minütige Demo.
🎯 Kostenlose Demo buchenLernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen