Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die rasante Entwicklung von Text-zu-Video (T2V)-Modellen hat in den letzten Jahren beeindruckende Fortschritte erzielt. Die Generierung von Videos aus einfachen Texteingaben eröffnet eine Vielzahl von Anwendungsmöglichkeiten, von der automatisierten Erstellung von Marketingmaterialien bis hin zur Produktion von personalisierten Lernvideos. Trotz dieser Fortschritte besteht weiterhin eine Herausforderung: die präzise Abstimmung der generierten Videos mit den menschlichen Vorstellungen und Erwartungen.
Ein aktuelles Forschungspapier mit dem Titel "LiFT: Leveraging Human Feedback for Text-to-Video Model Alignment" widmet sich genau dieser Problematik. Die Forscher argumentieren, dass menschliche Präferenzen subjektiv und komplex sind und sich daher nur schwer in objektive Bewertungsmetriken fassen lassen. Herkömmliche T2V-Modelle, die auf großen Datensätzen trainiert werden, können zwar beeindruckende Ergebnisse liefern, treffen aber nicht immer den Geschmack oder die Intention des Nutzers.
Der von den Forschern vorgeschlagene Ansatz, LiFT, basiert auf einem dreistufigen Verfahren. Zunächst wurde ein Datensatz mit menschlichen Bewertungen, LiFT-HRA, erstellt. Dieser umfasst rund 10.000 menschliche Annotationen zu generierten Videos. Jede Annotation enthält eine Bewertung und eine dazugehörige Begründung. Diese detaillierten Bewertungen bilden die Grundlage für die zweite Stufe des Verfahrens.
Im zweiten Schritt wird ein sogenanntes Belohnungsmodell, LiFT-Critic, trainiert. Dieses Modell lernt anhand der menschlichen Bewertungen, die Qualität und die Übereinstimmung der Videos mit den Texteingaben zu bewerten. Es dient als eine Art Stellvertreter für das menschliche Urteil und ermöglicht eine automatisierte Bewertung der generierten Videos.
In der dritten und letzten Stufe wird das T2V-Modell mithilfe des Belohnungsmodells feinabgestimmt. Durch die Maximierung der belohnungsgewichteten Wahrscheinlichkeit wird das Modell darauf trainiert, Videos zu generieren, die den menschlichen Präferenzen besser entsprechen. Die Forscher demonstrierten die Wirksamkeit von LiFT anhand des CogVideoX-2B Modells. Die Ergebnisse zeigen, dass das feinabgestimmte Modell in allen 16 evaluierten Metriken besser abschnitt als das deutlich größere CogVideoX-5B Modell.
Die Ergebnisse der Studie unterstreichen die Bedeutung von menschlichem Feedback für die Entwicklung und Verbesserung von KI-Modellen. Die Integration subjektiver menschlicher Bewertungen ermöglicht es, die Modelle präziser auf die Bedürfnisse der Nutzer auszurichten und die Qualität der generierten Inhalte zu steigern. Dieser Ansatz ist besonders relevant für kreative Anwendungen wie die Text-zu-Video-Generierung, bei denen die Bewertung der Ergebnisse stark von individuellen Präferenzen abhängt.
Die Entwicklung von LiFT ist ein wichtiger Schritt in Richtung einer menschzentrierten KI-Entwicklung. Durch die Einbeziehung von menschlichem Feedback können KI-Systeme nicht nur leistungsfähiger, sondern auch nutzerfreundlicher und vertrauenswürdiger gestaltet werden. Für Unternehmen wie Mindverse, die sich auf die Entwicklung von KI-gestützten Content-Lösungen spezialisiert haben, bieten diese Forschungsergebnisse wertvolle Impulse für die Weiterentwicklung ihrer Produkte und Dienstleistungen.
Bibliographie: Wang, Y. et al. (2024). LiFT: Leveraging Human Feedback for Text-to-Video Model Alignment. arXiv preprint arXiv:2412.04814. Lee, K. et al. (2023). Aligning Text-to-Image Models using Human Feedback. arXiv preprint arXiv:2302.12192. Xie, A. et al. (2024). Leveraging Human Revisions for Improving Text-to-Layout Models. arXiv preprint arXiv:2405.13026. Wu, X. et al. (2024). Boosting Text-to-Video Generative Model with MLLMs Feedback. NeurIPS 2024. Liang, J. et al. (2024). Rich Human Feedback for Text-to-Image Generation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 1153-1162). Zhao, W. et al. (2023). Learning Video Representations From Large Language Models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 15368-15378). KEIxGPPCLWM (2024). [Video]. YouTube. Lee, K., & Liu, H. (n.d.). Aligning Text-to-Image Models using Human Feedback. Semantic Scholar.Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen