Innovativer Ansatz für agentenbasierte Video-Intelligenz mit UniVA

Kategorien:

No items found.

Freigegeben:

November 16, 2025

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

UniVA ist ein Open-Source Multi-Agenten-Framework, das Video-Verständnis, -Segmentierung, -Bearbeitung und -Generierung in kohäsiven Arbeitsabläufen vereint.
Das System nutzt eine "Plan-and-Act"-Architektur mit einem Planer-Agenten zur Aufgabenzerlegung und Ausführer-Agenten zur modularen Ausführung.
Eine hierarchische Speichermethode (global, aufgabenbezogen, benutzerdefiniert) ermöglicht langfristiges Denken, Kontextkontinuität und inter-Agenten-Kommunikation.
UniVA-Bench ist eine neue Benchmark-Suite zur Bewertung von agentenbasierten Videosystemen über mehrere Schritte hinweg.
Das Framework ist vollständig Open-Source und zielt darauf ab, die Forschung an interaktiver, agentenbasierter und allgemeiner Video-Intelligenz voranzutreiben.

Die Entwicklung im Bereich der Künstlichen Intelligenz (KI) schreitet in vielen Sektoren rasant voran, und der Videobereich bildet hierbei keine Ausnahme. Während spezialisierte KI-Modelle in isolierten Videoaufgaben wie der Generierung oder dem Verständnis beeindruckende Leistungen erbringen, erfordern reale Anwendungen oft komplexe, iterative Arbeitsabläufe, die diese Fähigkeiten kombinieren. Eine neue Entwicklung namens UniVA (Universal Video Agent) zielt darauf ab, diese Lücke zu schließen und eine umfassende Lösung für die nächste Generation von Video-Generalisten bereitzustellen.

UniVA: Ein integrierter Ansatz für Video-Intelligenz

UniVA präsentiert sich als ein Open-Source, omni-fähiges Multi-Agenten-Framework, das Video-Verständnis, -Segmentierung, -Bearbeitung und -Generierung in kohärenten Arbeitsabläufen zusammenführt. Im Kern des Systems steht eine "Plan-and-Act"-Dual-Agenten-Architektur, die einen hochautomatisierten und proaktiven Workflow ermöglicht. Ein Planer-Agent interpretiert dabei Benutzerabsichten und zerlegt diese in strukturierte Videoverarbeitungsschritte, während Ausführer-Agenten diese Schritte über modulare, MCP-basierte (Model Context Protocol) Tool-Server ausführen. Diese Server decken eine Vielzahl von Funktionen ab, darunter Analyse, Generierung, Bearbeitung und Tracking.

Architektur und Funktionsweise

Die UniVA-Architektur basiert auf einer klaren Trennung von Planung und Ausführung. Der Planer-Agent ist für die Interpretation komplexer Benutzeranfragen und deren Zerlegung in eine Abfolge ausführbarer Schritte zuständig. Dies ermöglicht dem System, langfristige Ziele zu antizipieren und den Plan flexibel anzupassen, falls Zwischenergebnisse Änderungen erfordern. Die Ausführer-Agenten setzen die vom Planer definierten Schritte um, indem sie auf eine modulare Sammlung von Werkzeugen zugreifen. Diese Werkzeuge sind über das MCP integriert, was eine flexible Erweiterung und den Austausch von Modulen ermöglicht.

Ein zentrales Element von UniVA ist sein hierarchischer Multi-Level-Speicher, der aus drei Komponenten besteht:

Globaler Speicher: Speichert persistentes Wissen und wiederverwendbare Ressourcen, wie allgemeine Videofakten oder vorkompilierte Einbettungen.
Aufgabenspezifischer Speicher: Behält Zwischenartefakte, Tool-Ausgaben und Ausführungsverläufe für den aktuellen Workflow bei, um Kontextkontinuität zu gewährleisten.
Benutzerspezifischer Speicher: Erfasst Benutzerpräferenzen und historische Interaktionen, um adaptive Verhaltensweisen zu ermöglichen.

Dieser Speicheransatz ermöglicht langfristiges Denken, Kontextkontinuität und inter-Agenten-Kommunikation, was eine interaktive und selbstreflektierende Videoerstellung mit vollständiger Nachvollziehbarkeit unterstützt.

Integration und Anwendungsbereiche

UniVA ermöglicht iterative und beliebig konditionierte Video-Workflows, die zuvor mit Einzweckmodellen oder monolithischen Video-Sprachmodellen nur umständlich zu realisieren waren. Beispiele hierfür sind text-/bild-/video-konditionierte Generierung, mehrstufige Bearbeitung, Objektsegmentierung und kompositorische Synthese. Das Framework ist so konzipiert, dass es sowohl als kreativer Video-Agent für dynamische, benutzerinteraktive Generierung als auch als industrietaugliche Video-Engine für umfassende, qualitativ hochwertige Produktionen dienen kann.

Modulare Werkzeugintegration

Die Integration von Werkzeugen in UniVA erfolgt über das Model Context Protocol (MCP). Dieses Protokoll ermöglicht eine nahtlose Einbindung modernster Videofunktionsmodule – sowohl Open-Source als auch API-basiert – im Plug-and-Play-Verfahren. Der Werkzeug-Hub deckt drei Hauptkategorien ab:

Video-Tools: Für Generierung, Verständnis, Bearbeitung und Tracking.
Nicht-Video-Tools: Für Audio- und Bildoperationen.
Nicht-KI-Tools: Für grundlegende Videooperationen wie Schneiden.

Diese breite Abdeckung umfasst nahezu alle Funktionalitäten, die im Videoproduktionsprozess erforderlich sind.

UniVA-Bench: Eine neue Benchmark-Suite

Um die Leistungsfähigkeit und Intelligenz solcher agentenbasierten Systeme rigoros zu bewerten, wurde UniVA-Bench eingeführt. Diese Benchmark-Suite umfasst mehrstufige Videoaufgaben, die Verständnis, Segmentierung, Bearbeitung und Generierung umfassen. Die Aufgaben sind als "Goal Cards" mit Referenzartefakten (z.B. Evidenzspannen, Masken, EDLs) spezifiziert und werden sowohl mit aufgabenspezifischen Metriken als auch mit agentenbasierten Metriken (Planqualität, Werkzeug-Routing-Effizienz, Speichernutzung, Ablaufvollständigkeit) bewertet. UniVA-Bench wurde entwickelt, um Kompositionalität, Werkzeugwechsel und langfristiges Denken zu testen, nicht nur die Genauigkeit pro Aufgabe.

Evaluierung und Ergebnisse

Experimente unterstreichen, dass eine einheitliche agentenbasierte Architektur einen signifikanten Leistungsvorteil gegenüber isolierten End-to-End-Modellen bietet. Die Kombination aus einem dualen "Plan-Act"-Framework und einem Multi-Komponenten-Speichersystem erweist sich als essenziell für die robuste Planung und den persistenten Kontext, die für komplexe Videoaufgaben erforderlich sind.

Generierung: UniVA zeigte überlegene Leistungen in Szenarien wie LongText2Video, was auf die Fähigkeit des Planer-Agenten zurückzuführen ist, komplexe Anweisungen zu interpretieren und in optimierte Prompts zu zerlegen.
Verständnis: UniVA erreichte die höchste Genauigkeit in Long-Video-Verständnisaufgaben, was die Fähigkeit des Agenten beweist, komplexe Abfragen in handhabbare Unteraufgaben zu zerlegen.
Bearbeitung: Im Bereich der langen Videobearbeitung übertraf UniVA traditionelle Modelle, indem es ein kontinuierliches, tiefgreifendes Verständnis des Videos nutzte, um Bearbeitungsobjekte über lange, bildübergreifende Videosequenzen hinweg zu verankern.
Segmentierung: UniVA zeigte auch hier eine überlegene Leistung, da es das integrierte Verständnismodul nutzen konnte, um Mehrdeutigkeiten zu lösen, die auf Pixelebene unlösbar wären.

Diese Ergebnisse deuten darauf hin, dass die überlegene Leistung von UniVA nicht nur auf der Qualität seiner einzelnen Module beruht, sondern auch auf der engen Kopplung und dem dynamischen Zusammenspiel zwischen ihnen.

Ausblick und Open-Source-Beitrag

Sowohl UniVA als auch UniVA-Bench sind vollständig Open-Source, mit dem Ziel, die Forschung an interaktiver, agentenbasierter und allgemeiner Video-Intelligenz für die nächste Generation multimodaler KI-Systeme zu katalysieren. Der Ansatz von UniVA, isolierte, aufgabenspezifische Modelle durch ein integriertes System zu ersetzen, das komplexe, kollaborative Workflows beherrscht, stellt einen Paradigmenwechsel in der Video-Intelligenz dar.

UniVA ist somit mehr als eine Sammlung von Werkzeugen; es ist eine Engine, die emergente Intelligenz erzeugt. Es wird erwartet, dass dieses Framework und die zugehörige Benchmark die zukünftige Forschung in diesem Bereich maßgeblich beeinflussen und zur Entwicklung wirklich allgemeiner Video-Agenten beitragen werden.

Für weitere Informationen und Demos besuchen Sie bitte die offizielle UniVA-Website: http://univa.online/

Bibliographie

- Liang, Z., Zhang, D., Zhou, H., Huang, R., Li, B., Zhang, Y., Wu, S., Wang, X., Luo, J., Liao, L., & Fei, H. (2025). UniVA: Universal Video Agent towards Open-Source Next-Generation Video Generalist. arXiv preprint arXiv:2511.08521. - UniVA-Agent (UniVA). (2025). Hugging Face. Abgerufen von https://huggingface.co/UniVA-Agent - AI Research Roundup. (2025). UniVA: Open-Source Multi-Agent Video System. YouTube. Abgerufen von https://www.youtube.com/watch?v=kqOf0Gavw7s - ICLR 2026 Conference Submission 4064 Authors. (2025). UniVA: Universal Video Agents towards Next-Generation Video Intelligence. OpenReview. Abgerufen von https://openreview.net/forum?id=0fNQCOWKc1