Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Analyse und Synthese von Bewegung in Videos sind eng verwandte Bereiche der künstlichen Intelligenz. Während traditionelle Tracking-Systeme darauf ausgelegt sind, die Bewegung von Objekten zu analysieren, konzentrieren sich Videogeneratoren auf die Erzeugung von Bewegungsabläufen. Eine aktuelle Forschungsarbeit der University of Michigan und Cornell University stellt nun einen innovativen Ansatz vor, der diese Verbindung nutzt: das sogenannte „Point Prompting“. Diese Methode ermöglicht es vortrainierten Video-Diffusionsmodellen, Punkte in Videos ohne spezifisches Vortraining zu verfolgen, was als „Zero-Shot Point Tracking“ bezeichnet wird.
Das Kernprinzip des Point Prompting ist verhältnismäßig einfach, aber effektiv. Zunächst wird ein deutlich sichtbarer, farbiger Marker auf einen spezifischen Punkt im ersten Frame eines Videos platziert, dessen Bewegung verfolgt werden soll. Anschließend wird das Video von einem Video-Diffusionsmodell neu generiert, ausgehend von einem mittleren Rauschlevel. Dabei wird dem Modell die Aufgabe gegeben, den hinzugefügten Marker über die nachfolgenden Frames hinweg zu propagieren. Auf diese Weise zeichnet der Marker die Trajektorie des ursprünglich markierten Punktes im Video nach.
Eine zentrale Herausforderung bei diesem Ansatz besteht darin, dass künstliche Marker in natürlichen Videos unüblich sind und das Diffusionsmodell dazu neigen könnte, diese als Artefakte zu interpretieren und zu entfernen. Um dies zu verhindern, wird ein cleverer Kniff angewendet: Das uneditierte Originalbild des ersten Frames ohne Marker dient als negativer Prompt. Dies weist das Modell an, den Marker während der kontrafaktischen Generierung beizubehalten und ihn nicht als unerwünschtes Element zu behandeln.
Die Methodik des Point Prompting gliedert sich in drei Hauptphasen:
Zur weiteren Verbesserung der Genauigkeit werden zudem Techniken wie Farbrebalancierung und eine Grob-zu-Fein-Verfeinerung durch Inpainting-Generierung vorgeschlagen.
Die Evaluierung der Point-Prompting-Methode erfolgte mittels des TAP-Vid-Benchmarks und umfasste Vergleiche mit etablierten Zero-Shot-Tracking-Methoden wie DINOv2, DIFT und SD-DINO. Die Ergebnisse zeigen, dass Point Prompting in allen Metriken eine signifikant höhere Leistung erzielt. Bemerkenswerterweise übertrifft es sogar spezialisierte, selbstüberwachte Modelle, die explizit für das Tracking trainiert wurden (z.B. GMRW), und erreicht eine vergleichbare Leistung mit Opt-CWM, einem der leistungsstärksten selbstüberwachten Modelle.
Die Forschung identifizierte das kontrafaktische Signal als den entscheidenden Faktor für die Leistung; dessen Abwesenheit führte zu einem drastischen Leistungsabfall. Auch die Farbrebalancierung hatte einen erheblichen Einfluss auf die Ergebnisse. Dies unterstreicht die Bedeutung der präzisen Steuerung des Diffusionsprozesses, um die gewünschten Tracking-Ergebnisse zu erzielen.
Die Ergebnisse dieser Studie legen nahe, dass Video-Diffusionsmodelle, die ursprünglich für die Synthese von Bewegung entwickelt wurden, über eine implizite Fähigkeit zur Bewegungsanalyse verfügen. Diese „emergente“ Tracking-Fähigkeit könnte neue Wege für die Entwicklung von Tracking-Algorithmen eröffnen und die Notwendigkeit umfangreicher, spezifischer Trainingsdaten reduzieren. Die Fähigkeit, auch durch Okklusionen hindurch zu verfolgen, ist ein weiteres vielversprechendes Merkmal dieses Ansatzes.
Obwohl Point Prompting bereits beeindruckende Ergebnisse liefert, gibt es noch offene Fragen und Bereiche für zukünftige Entwicklungen. Die Komplexität, für jeden zu verfolgenden Punkt ein gesamtes Video neu generieren zu müssen, deutet auf einen potenziell hohen Rechenaufwand hin. Darüber hinaus zeigen sich in bestimmten Szenarien, wie bei stationären Punkten, symmetrischen Objekten oder bei der Verfolgung nahe der Bildränder, noch Grenzen des aktuellen Modells. Trotz dieser Herausforderungen stellt Point Prompting einen bedeutenden Fortschritt im Bereich des Zero-Shot Point Trackings dar und unterstreicht das Potenzial von Video-Diffusionsmodellen als vielseitige Werkzeuge für die Computer Vision.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen