Neuer Ansatz zur Verbesserung der Konsistenz im Video-Retrieval

Kategorien:

No items found.

Freigegeben:

March 11, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Der schnelle Überblick

Video-Retrieval-Systeme haben oft Schwierigkeiten, die visuelle Konsistenz über längere Erzählstränge hinweg aufrechtzuerhalten.
Das Konzept des "Consistent Video Retrieval" (CVR) wurde eingeführt, um dieses Problem zu formalisieren und zu bewerten.
CAST (Context-Aware State Transition) ist ein neuartiger, leichter Adapter, der visuelle Zustandsübergänge modelliert.
CAST verbessert die Konsistenz bei der Videoabfrage erheblich und übertrifft bestehende kontextunabhängige Baselines.
Die Methode zeigt eine breite Anwendbarkeit über verschiedene Basismodelle hinweg und kann auch zur Verbesserung von generierten Videos verwendet werden.

Einführung in konsistentes Video-Retrieval

Die Erstellung von Videoinhalten entwickelt sich zunehmend von isolierten Clips hin zu strukturierten, mehrstufigen Erzählungen. In diesem Kontext wird die Fähigkeit, kurze Clips zu kohärenten Storylines zusammenzusetzen, immer wichtiger. Aktuelle Video-Retrieval-Formulierungen sind jedoch oft kontextunabhängig und priorisieren die lokale semantische Ausrichtung, während sie die Konsistenz von Zustand und Identität vernachlässigen. Dies führt zu Inkonsistenzen in der Identität, wie plötzliche Wechsel von Akteuren oder Umgebungen, und zu Zustandsinkonsistenzen, die prozedurale Kausalität verletzen können. Beispielsweise könnte bei der Suche nach "Tomaten schneiden" ein Clip angezeigt werden, der bereits geschnittene Tomaten zeigt oder eine andere Person, die auf einem unpassenden Schneidebrett arbeitet.

Um diese strukturelle Einschränkung zu adressieren, wurde das Konzept des Consistent Video Retrieval (CVR) formalisiert. CVR definiert die Aufgabe neu als ein kontextsensitives Inferenzproblem: Gegeben eine Sequenz von vorhergehenden Clips und eine Textanweisung, muss das Modell einen Zielclip abrufen, der nicht nur semantisch auf die Anweisung abgestimmt, sondern auch konsistent mit dem vorhergehenden visuellen Zustand und den Identitätshinweisen ist.

CAST: Ein Ansatz zur Modellierung visueller Zustandsübergänge

Die Forschung stellt einen innovativen Ansatz namens CAST (Context-Aware State Transition) vor, einen leichtgewichtigen, Plug-and-Play-Adapter. Dieser Adapter ist mit verschiedenen eingefrorenen Vision-Language-Embedding-Spaces kompatibel und wurde entwickelt, um explizite induktive Verzerrungen für die latente Zustandsentwicklung einzuführen. CAST erreicht dies, indem es ein zustandsabhängiges Rest-Update (Δ) aus der visuellen Historie vorhersagt. Das Kernprinzip von CAST basiert auf der Beobachtung, dass Aktionen in prozeduralen Erzählungen besser als latente visuelle Zustandsübergänge denn als statische semantische Labels verstanden werden. Daher modelliert CAST den prozeduralen Fortschritt als eine Sequenz von zustandsbedingten Übergängen.

Im Gegensatz zu kontextunabhängigem Matching verwendet CAST die Textanweisung, um einen Residualvektor (Δ) im Embedding-Raum vorherzusagen. Dieser Residualvektor aktualisiert das aktuelle Zustand-Embedding und modifiziert prozedurale Attribute, während identitätsrelevante Informationen aus dem Ankerzustand durch die additive Verbindung erhalten bleiben. Formal führt dies zu einem Retrieval-Ziel, das es dem Modell ermöglicht, eine kausal plausible Fortsetzung zu suchen, anstatt nur eine semantische Übereinstimmung.

Benchmark-Konstruktion für CVR

Um CVR rigoros zu bewerten, wurde ein diagnostischer Benchmark entwickelt, der die Datensätze YouCook2, COIN und CrossTask umfasst. Diese Datensätze eignen sich aufgrund ihrer starken kausalen Abhängigkeiten besonders gut zur Bewertung der zeitlichen Konsistenz. Der Benchmark unterscheidet sich von traditionellen Ansätzen, indem er "harte Negative" konstruiert, die die Anweisung zwar semantisch erfüllen, aber in Bezug auf Zustand oder Identität inkonsistent sind. Dies zwingt die Modelle dazu, über reine semantische Übereinstimmung hinauszugehen und die visuelle Konsistenz zu berücksichtigen.

Die Negativbeispiele werden in drei Typen unterteilt:

State Negatives (Temporale Inkonsistenz): Aus demselben Video, aber aus verschiedenen, nicht-zielgerichteten Schrittsegmenten entnommen. Diese Clips bewahren die Umgebung und die Akteuridentität, entsprechen aber einem ungültigen prozeduralen Zustand.
Identity Negatives (Erscheinungsbild-Inkonsistenz): Aus verschiedenen Videos entnommen, die semantisch übereinstimmen, aber die Identitätskonsistenz verletzen.
Easy Negatives: Zufällig ausgewählte Clips mit geringer semantischer Ähnlichkeit, um eine feste Größe des Kandidatenpools zu gewährleisten.

Architektur und Training von CAST

CAST ist als leichter Adapter auf einem eingefrorenen, vortrainierten Video-Encoder (z.B. CLIP) implementiert. Das Modell sagt die Zielrepräsentation des nächsten Zustands (v̂t) voraus, basierend auf dem Ankerzustand des vorhergehenden Clips (vt-1), der Anweisung (qt) und der visuellen Historie (Ht). Diese Vorhersage erfolgt als residualer Übergang v̂t = ϕ(vt-1 + Δ(vt-1, qt, Ht)), wobei Δ der vorhergesagte Übergangsvektor ist und ϕ die L2-Normalisierung darstellt.

Der Übergangsvektor Δ wird in zwei komplementäre Komponenten zerlegt: Δcond (instruktionsbedingter Zustandsübergang) und Δctx (temporale Kontextaufmerksamkeit). Δcond wird durch ein MLP berechnet, das die Text-Embeddings der Anweisung und die visuellen Embeddings des Ankerzustands kombiniert. Δctx wird mittels eines Multi-Head-Cross-Attention-Mechanismus aggregiert, der die Anweisung als Query und die visuelle Historie als Keys und Values verwendet.

Für das Training wird ein typbewusstes kontrastives Ziel verwendet, das die CAST-Parameter optimiert, während der Backbone eingefroren bleibt. Neben einer standardmäßigen InfoNCE-Objective werden zwei lokale kontrastive Objectives (ℒstate und ℒident) eingeführt, um die Konsistenz in Bezug auf Zustand und Identität explizit zu erzwingen.

Inferenz und Anwendungsbereiche

Zur Inferenzzeit agiert CAST als skalierbares Plug-and-Play-Modul auf der Query-Seite. Die Videogalerie wird einmal mit dem eingefrorenen Backbone vorindexiert. CAST berechnet v̂t on-the-fly aus der visuellen Historie und der Anweisung und bewertet Kandidatenfortsetzungen im selben eingefrorenen Embedding-Raum. Die Bewertung erfolgt durch eine Kombination aus semantischer Ausrichtung, visueller Kontinuität und der Kompatibilität mit dem vorhergesagten zukünftigen Zustand.

Ein wichtiger Anwendungsbereich von CAST liegt jenseits des reinen Retrievals: die Lenkung der Videogenerierung. CAST kann als Neuordnungs-Signal für Black-Box-Videogenerierungs-Kandidaten dienen. Eine blinde Humanstudie mit generierten Videos von Modellen wie Veo zeigte, dass CAST-ausgewählte Ausgaben konsistent gegenüber textbasierten Selektionen bevorzugt werden, insbesondere in Bezug auf die Gesamtpräferenz, physikalische Plausibilität und zeitliche Logik.

Experimentelle Ergebnisse

Umfassende Experimente auf YouCook2, COIN und CrossTask zeigen, dass CAST die Retrieval-Leistung unter prozeduralem Kontext deutlich verbessert. Es erzielt klare Gewinne auf YouCook2 und CrossTask, bleibt auf COIN wettbewerbsfähig und übertrifft durchweg die entsprechenden Zero-Shot-Baselines über diverse eingefrorene Embedding-Backbones hinweg.

Effektivität des CAST-Mechanismus: Im Vergleich zu einfachen Aggregationsmethoden, die lediglich Skalare neu gewichten, sagt CAST einen strukturierten, instanzbedingten Residualvektor voraus. Diese Formulierung ist effektiver bei der Auflösung kausaler Ambiguitäten.
Universalität über Backbones hinweg: CAST wurde erfolgreich auf verschiedene Video-Foundation-Modelle (wie InternVideo2 und VideoPrism) und multimodale Embedding-Modelle (wie GME-Qwen2-VL-2B und Qwen3-VL-Embedding) angewendet. Die Leistungsgewinne sind konsistent über alle Backbone-Familien hinweg.
Ablationsstudien: Analysen zur Architektur und den Inferenzkomponenten bestätigen, dass die Residualmodellierung und das Dual-Path-Design von CAST entscheidend für die Leistungssteigerung sind. Die Kontextlänge spielt ebenfalls eine Rolle, wobei bereits der unmittelbare Vorgänger (L=1) einen starken Hinweis für die prozedurale Kontinuität liefert.

Fazit

Die Einführung von Consistent Video Retrieval (CVR) und des CAST-Adapters stellt einen wichtigen Schritt zur Bewältigung der strukturellen Einschränkungen bei der Aufrechterhaltung zeitlicher und identitätsbezogener Kohärenz in Video-Retrieval-Systemen dar. Durch die Modellierung prozeduraler Schritte als zustandsbedingte Residualübergänge bietet CAST eine effektive Lösung, die über die reine semantische Übereinstimmung hinausgeht.

Die Fähigkeit von CAST, nicht nur das Retrieval zu verbessern, sondern auch die Qualität von generierten Videos zu steigern, unterstreicht sein Potenzial für zukünftige Entwicklungen im Bereich des kontextsensitiven Inferenz und des kausal konsistenten Video-Verständnisses. Zukünftige Arbeiten könnten die Integration hierarchischer Speicher für längere Zeiträume und strukturierte Regularisierungen für die Zustandsübergangsmodellierung umfassen, um die aktuellen Limitationen weiter zu überwinden.

Bibliographie

- Liu, Y., Liu, Y., Dong, F., Budianto, B., Xie, C., & Jiao, Y. (2026). CAST: Modeling Visual State Transitions for Consistent Video Retrieval. arXiv preprint arXiv:2603.08648. - Cheng, F. (n.d.). Computer Vision and Pattern Recognition. Papers.cool. Abgerufen von https://papers.cool/arxiv/cs.CV - Google. (n.d.). Hugging Face. Abgerufen von https://huggingface.co/google/models - Lee, D., Lee, J., & Choi, J. (2023). CAST: Cross-Attention in Space and Time for Video Action Recognition. Advances in Neural Information Processing Systems, 36. - dblp: CAST: Cross-Attention in Space and Time for Video Action Recognition. (n.d.). dblp.org. Abgerufen von https://dblp.org/rec/conf/nips/LeeLC23 - Stately. (2026, 25. Januar). Stately.ai. Abgerufen von https://stately.ai/ - Capablanca.ai. (2026, 1. Februar). Capablanca.ai. Abgerufen von https://capablanca.ai/ - IEEE Transactions on Circuits and Systems for Video Technology. (2026, 1. Februar). IEEE-CAS.org. Abgerufen von https://ieee-cas.org/publication/tcsvt - Hugging Face Papers: CAST: Modeling Visual State Transitions for Consistent Video Retrieval. (n.d.). Hugging Face. Abgerufen von https://huggingface.co/papers/2603.08648