Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Generierung von Videos mittels künstlicher Intelligenz (KI) hat in den letzten Jahren rasante Fortschritte gemacht. Insbesondere die Entwicklung von Diffusionsmodellen, insbesondere solche, die auf Transformer-Architekturen basieren, hat die Möglichkeiten der Text-zu-Video-Synthese erweitert. Ein aktuelles Forschungspapier mit dem Titel "Ingredients: Blending Custom Photos with Video Diffusion Transformers" stellt einen innovativen Ansatz vor, der die Personalisierung von Videos durch die Integration von benutzerdefinierten Fotos ermöglicht.
Bisherige Methoden zur Personalisierung von Videos stießen auf verschiedene Herausforderungen. Trainingsbasierte Verfahren, bei denen das Modell für jede neue Person feinabgestimmt werden muss, sind oft zu rechenintensiv und zeitaufwendig. Trainingsfreie Methoden hingegen basierten meist auf U-Net-Architekturen und ließen sich nicht auf die neueren, leistungsfähigeren Diffusions-Transformer (DiT) übertragen. Eine Ausnahme bildete ConsisID, welches zwar mit Video-Diffusions-Transformern kompatibel ist, jedoch nur die Personalisierung mit einem einzigen Gesicht ermöglichte.
Das "Ingredients" genannte Framework adressiert diese Herausforderungen und ermöglicht die Integration mehrerer individueller Fotos in Videos, die mit Diffusions-Transformern generiert werden. Der Ansatz basiert auf drei Hauptmodulen:
1. Gesichts-Extraktor: Dieses Modul erfasst präzise Gesichtsmerkmale jeder Person aus den bereitgestellten Fotos, sowohl global als auch lokal.
2. Multi-Skalen-Projektor: Die extrahierten Gesichtsmerkmale werden in den Kontextraum der Bildabfrage im Video-Diffusions-Transformer projiziert. Dies ermöglicht die Integration der individuellen Merkmale in den Generierungsprozess.
3. ID-Router: Dieses Modul kombiniert und verteilt die verschiedenen ID-Einbettungen dynamisch auf die entsprechenden Raum-Zeit-Regionen im Video. Dadurch wird sichergestellt, dass die richtigen Gesichter an den richtigen Stellen im Video erscheinen.
Das Training von "Ingredients" erfolgt in mehreren Stufen. Zunächst wird die Gesichtserkennung optimiert, gefolgt von der Feinabstimmung des ID-Routers. Die Ergebnisse zeigen, dass "Ingredients" in der Lage ist, qualitativ hochwertige, personalisierte Videos zu generieren, die die Identität der verschiedenen Personen konsistent beibehalten. Der Ansatz bietet zudem eine hohe Flexibilität hinsichtlich der Steuerung des Generierungsprozesses durch Texteingaben.
Die Möglichkeit, Videos mit mehreren personalisierten Gesichtern zu generieren, eröffnet zahlreiche Anwendungsmöglichkeiten, von personalisierten Geschichten und Werbevideos bis hin zu animierten Filmen und interaktiven Spielen. "Ingredients" stellt einen wichtigen Schritt in Richtung effektiverer und flexiblerer Kontrollmechanismen für generative Video-KI dar und trägt dazu bei, die Grenzen des Möglichen in der Videokreation zu erweitern.
Die Veröffentlichung von Code, Daten und Modellgewichten unterstreicht das Engagement der Entwickler für Open Source und ermöglicht es der Community, auf dieser vielversprechenden Technologie aufzubauen und sie weiterzuentwickeln. Die Kombination aus fortschrittlicher Transformer-Architektur und einem intelligenten Routing-Mechanismus macht "Ingredients" zu einem wertvollen Werkzeug für die zukünftige Entwicklung personalisierter Videoinhalte.
Bibliographie: https://arxiv.org/abs/2501.01790 https://huggingface.co/papers/2501.01790 https://arxiv.org/html/2501.01790v1 https://paperreading.club/page?id=276594 https://huggingface.co/papers https://openaccess.thecvf.com/content/CVPR2024/papers/Chen_GenTron_Diffusion_Transformers_for_Image_and_Video_Generation_CVPR_2024_paper.pdf https://github.com/showlab/Awesome-Video-Diffusion https://github.com/ChenHsing/Awesome-Video-Diffusion-Models https://dit-policy.github.io/resources/paper.pdf https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/02391.pdfLernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen