Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Erstellung von Videoinhalten entwickelt sich zunehmend von isolierten Clips hin zu strukturierten, mehrstufigen Erzählungen. In diesem Kontext wird die Fähigkeit, kurze Clips zu kohärenten Storylines zusammenzusetzen, immer wichtiger. Aktuelle Video-Retrieval-Formulierungen sind jedoch oft kontextunabhängig und priorisieren die lokale semantische Ausrichtung, während sie die Konsistenz von Zustand und Identität vernachlässigen. Dies führt zu Inkonsistenzen in der Identität, wie plötzliche Wechsel von Akteuren oder Umgebungen, und zu Zustandsinkonsistenzen, die prozedurale Kausalität verletzen können. Beispielsweise könnte bei der Suche nach "Tomaten schneiden" ein Clip angezeigt werden, der bereits geschnittene Tomaten zeigt oder eine andere Person, die auf einem unpassenden Schneidebrett arbeitet.
Um diese strukturelle Einschränkung zu adressieren, wurde das Konzept des Consistent Video Retrieval (CVR) formalisiert. CVR definiert die Aufgabe neu als ein kontextsensitives Inferenzproblem: Gegeben eine Sequenz von vorhergehenden Clips und eine Textanweisung, muss das Modell einen Zielclip abrufen, der nicht nur semantisch auf die Anweisung abgestimmt, sondern auch konsistent mit dem vorhergehenden visuellen Zustand und den Identitätshinweisen ist.
Die Forschung stellt einen innovativen Ansatz namens CAST (Context-Aware State Transition) vor, einen leichtgewichtigen, Plug-and-Play-Adapter. Dieser Adapter ist mit verschiedenen eingefrorenen Vision-Language-Embedding-Spaces kompatibel und wurde entwickelt, um explizite induktive Verzerrungen für die latente Zustandsentwicklung einzuführen. CAST erreicht dies, indem es ein zustandsabhängiges Rest-Update (Δ) aus der visuellen Historie vorhersagt. Das Kernprinzip von CAST basiert auf der Beobachtung, dass Aktionen in prozeduralen Erzählungen besser als latente visuelle Zustandsübergänge denn als statische semantische Labels verstanden werden. Daher modelliert CAST den prozeduralen Fortschritt als eine Sequenz von zustandsbedingten Übergängen.
Im Gegensatz zu kontextunabhängigem Matching verwendet CAST die Textanweisung, um einen Residualvektor (Δ) im Embedding-Raum vorherzusagen. Dieser Residualvektor aktualisiert das aktuelle Zustand-Embedding und modifiziert prozedurale Attribute, während identitätsrelevante Informationen aus dem Ankerzustand durch die additive Verbindung erhalten bleiben. Formal führt dies zu einem Retrieval-Ziel, das es dem Modell ermöglicht, eine kausal plausible Fortsetzung zu suchen, anstatt nur eine semantische Übereinstimmung.
Um CVR rigoros zu bewerten, wurde ein diagnostischer Benchmark entwickelt, der die Datensätze YouCook2, COIN und CrossTask umfasst. Diese Datensätze eignen sich aufgrund ihrer starken kausalen Abhängigkeiten besonders gut zur Bewertung der zeitlichen Konsistenz. Der Benchmark unterscheidet sich von traditionellen Ansätzen, indem er "harte Negative" konstruiert, die die Anweisung zwar semantisch erfüllen, aber in Bezug auf Zustand oder Identität inkonsistent sind. Dies zwingt die Modelle dazu, über reine semantische Übereinstimmung hinauszugehen und die visuelle Konsistenz zu berücksichtigen.
Die Negativbeispiele werden in drei Typen unterteilt:
CAST ist als leichter Adapter auf einem eingefrorenen, vortrainierten Video-Encoder (z.B. CLIP) implementiert. Das Modell sagt die Zielrepräsentation des nächsten Zustands (v̂t) voraus, basierend auf dem Ankerzustand des vorhergehenden Clips (vt-1), der Anweisung (qt) und der visuellen Historie (Ht). Diese Vorhersage erfolgt als residualer Übergang v̂t = ϕ(vt-1 + Δ(vt-1, qt, Ht)), wobei Δ der vorhergesagte Übergangsvektor ist und ϕ die L2-Normalisierung darstellt.
Der Übergangsvektor Δ wird in zwei komplementäre Komponenten zerlegt: Δcond (instruktionsbedingter Zustandsübergang) und Δctx (temporale Kontextaufmerksamkeit). Δcond wird durch ein MLP berechnet, das die Text-Embeddings der Anweisung und die visuellen Embeddings des Ankerzustands kombiniert. Δctx wird mittels eines Multi-Head-Cross-Attention-Mechanismus aggregiert, der die Anweisung als Query und die visuelle Historie als Keys und Values verwendet.
Für das Training wird ein typbewusstes kontrastives Ziel verwendet, das die CAST-Parameter optimiert, während der Backbone eingefroren bleibt. Neben einer standardmäßigen InfoNCE-Objective werden zwei lokale kontrastive Objectives (ℒstate und ℒident) eingeführt, um die Konsistenz in Bezug auf Zustand und Identität explizit zu erzwingen.
Zur Inferenzzeit agiert CAST als skalierbares Plug-and-Play-Modul auf der Query-Seite. Die Videogalerie wird einmal mit dem eingefrorenen Backbone vorindexiert. CAST berechnet v̂t on-the-fly aus der visuellen Historie und der Anweisung und bewertet Kandidatenfortsetzungen im selben eingefrorenen Embedding-Raum. Die Bewertung erfolgt durch eine Kombination aus semantischer Ausrichtung, visueller Kontinuität und der Kompatibilität mit dem vorhergesagten zukünftigen Zustand.
Ein wichtiger Anwendungsbereich von CAST liegt jenseits des reinen Retrievals: die Lenkung der Videogenerierung. CAST kann als Neuordnungs-Signal für Black-Box-Videogenerierungs-Kandidaten dienen. Eine blinde Humanstudie mit generierten Videos von Modellen wie Veo zeigte, dass CAST-ausgewählte Ausgaben konsistent gegenüber textbasierten Selektionen bevorzugt werden, insbesondere in Bezug auf die Gesamtpräferenz, physikalische Plausibilität und zeitliche Logik.
Umfassende Experimente auf YouCook2, COIN und CrossTask zeigen, dass CAST die Retrieval-Leistung unter prozeduralem Kontext deutlich verbessert. Es erzielt klare Gewinne auf YouCook2 und CrossTask, bleibt auf COIN wettbewerbsfähig und übertrifft durchweg die entsprechenden Zero-Shot-Baselines über diverse eingefrorene Embedding-Backbones hinweg.
Die Einführung von Consistent Video Retrieval (CVR) und des CAST-Adapters stellt einen wichtigen Schritt zur Bewältigung der strukturellen Einschränkungen bei der Aufrechterhaltung zeitlicher und identitätsbezogener Kohärenz in Video-Retrieval-Systemen dar. Durch die Modellierung prozeduraler Schritte als zustandsbedingte Residualübergänge bietet CAST eine effektive Lösung, die über die reine semantische Übereinstimmung hinausgeht.
Die Fähigkeit von CAST, nicht nur das Retrieval zu verbessern, sondern auch die Qualität von generierten Videos zu steigern, unterstreicht sein Potenzial für zukünftige Entwicklungen im Bereich des kontextsensitiven Inferenz und des kausal konsistenten Video-Verständnisses. Zukünftige Arbeiten könnten die Integration hierarchischer Speicher für längere Zeiträume und strukturierte Regularisierungen für die Zustandsübergangsmodellierung umfassen, um die aktuellen Limitationen weiter zu überwinden.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen