Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Generierung realistischer Videos mittels künstlicher Intelligenz hat in den letzten Jahren erhebliche Fortschritte gemacht. Dennoch besteht eine signifikante Herausforderung darin, die erzeugten Inhalte physikalisch glaubwürdig zu gestalten. Insbesondere die korrekte Darstellung von Starrkörperbewegungen, Kollisionen und anderen physikalischen Interaktionen bleibt oft unzureichend. Ein neuer Forschungsansatz adressiert diese Problematik durch die Einführung eines physikbasierten Reinforcement Learning Paradigmas für Videogenerierungsmodelle.
Moderne Videogenerierungsmodelle, die häufig auf Transformer-Architekturen basieren, zeichnen sich durch ihre Fähigkeit aus, visuell ansprechende Videos zu erzeugen. Bei genauerer Betrachtung offenbaren diese Modelle jedoch oft Mängel in Bezug auf die Einhaltung grundlegender physikalischer Gesetze. Dies betrifft beispielsweise die Konsistenz von Bewegungsabläufen, die korrekte Wiedergabe von Kollisionen oder die Einhaltung von Energie- und Impulserhaltungssätzen. Während computergestützte Grafik und physikalische Simulatoren solche Phänomene präzise modellieren können, verlieren datengetriebene KI-Modelle diese inhärente physikalische Logik oft im Prozess der Pixel-basierten Rauschunterdrückung.
Selbst mathematisch korrekte physikalische Einschränkungen werden bei der Optimierung dieser Modelle nach dem Training häufig als suboptimale Bedingungen behandelt, was den physikalischen Realismus der generierten Videos fundamental limitiert. Dies führt dazu, dass Objekte durch andere hindurchgleiten, unrealistische Geschwindigkeiten annehmen oder physikalisch unmögliche Reaktionen zeigen.
Um diese Lücke zu schließen, wurde ein neues Paradigma namens PhysRVG (Physics-Aware Unified Reinforcement Learning for Video Generative Models) entwickelt. Dieses Framework integriert physikalisches Wissen direkt in den Generierungsprozess von Videos. Der Kernansatz besteht darin, physikalische Kollisionsregeln und andere Gesetzmäßigkeiten direkt in hochdimensionalen Räumen durchzusetzen, anstatt sie lediglich als nachträgliche Bedingungen zu behandeln.
Das Besondere an PhysRVG ist die Anwendung von Reinforcement Learning (RL), um das Modell dazu anzuleiten, physikalisch korrekte Videos zu erzeugen. Dies unterscheidet sich von traditionellen Ansätzen, die sich oft auf die Anpassung an Trainingsdaten oder heuristische Regeln verlassen, welche die Komplexität physikalischer Interaktionen nicht vollständig erfassen können.
Ein zentraler Bestandteil von PhysRVG ist der sogenannte Mimicry-Discovery Cycle (MDcycle). Dieses Framework erweitert das physikbasierte Reinforcement Learning zu einem vereinheitlichten Ansatz. Es ermöglicht eine substanzielle Feinabstimmung der Modelle, während gleichzeitig die Fähigkeit des Modells, physikalisch fundierte Rückmeldungen zu nutzen, vollständig erhalten bleibt. Der MDcycle ist darauf ausgelegt, dass das Modell aus seinen eigenen Generierungen lernt und diese kontinuierlich verbessert, indem es physikalische Konsistenz als primäres Optimierungsziel verwendet.
PhysRVG basiert auf einem dreistufigen Trainingsschema, das auf einem Transformer-basierten Diffusionsmodell (DiT) implementiert wird und einen physikalischen Encoder (PhysEncoder) verwendet:
1. SFT (Supervised Fine-Tuning) für DiT und PhysEncoder: In dieser Phase wird das Basismodell (DiT) auf physikalische Repräsentationen des PhysEncoders konditioniert. Der PhysEncoder, der aus einem DINOv2-Encoder und einem physikalischen Head besteht, lernt, physikalische Merkmale aus dem Eingabebild zu extrahieren. Diese physikalischen Embeddings werden zusammen mit visuellen und textuellen Embeddings in das DiT-Modell eingespeist, um ihm eine anfängliche Fähigkeit zur Vorhersage physikalisch plausibler Bewegungen zu vermitteln.
2. DPO (Direct Preference Optimization) für DiT: Im zweiten Schritt wird das DiT-Modell mittels DPO auf einem Präferenzdatensatz feinabgestimmt. Hierbei lernt das Modell, positive Beispiele mit höherer Wahrscheinlichkeit und negative Beispiele mit geringerer Wahrscheinlichkeit zu generieren. Die Präferenzdaten werden durch das Vortrainierte Modell selbst erzeugt, indem zwei Gruppen von Videos mit denselben Eingaben, aber unterschiedlichen Seeds, generiert und anschließend nach physikalischer Plausibilität bewertet werden. Dies verbessert die physikalische Bewusstheit des Modells.
3. DPO für PhysEncoder: Die dritte Stufe nutzt die generativen Rückmeldungen des vortrainierten DiT-Modells, um die physikalische Repräsentation des PhysEncoders zu optimieren. Hierbei ist nur der physikalische Head des PhysEncoders trainierbar. Ziel ist es, den PhysEncoder dazu zu bringen, eine physikalische Repräsentation zu lernen, die das DiT-Modell zu noch präziseren physikalischen Dynamiken anleitet. Durch diesen Prozess wird das physikalische Wissen des PhysEncoders kontinuierlich durch Modellrückmeldungen verbessert.
Zur Validierung des Ansatzes wurden umfangreiche qualitative und quantitative Experimente durchgeführt. Ein neuer Benchmark namens PhysRVGBench wurde konstruiert, um die Effektivität von PhysRVG zu bewerten. Die Evaluation erfolgte sowohl in spezialisierten Proxy-Aufgaben als auch in allgemeinen Open-World-Szenarien.
Für die vorläufige Überprüfung wurde das Szenario des „freien Falls“ gewählt. Dieses umfasst den vollständigen physikalischen Prozess des Fallens von Objekten und deren Kollision mit Oberflächen. Dieses Szenario wurde aufgrund seiner klaren physikalischen Prinzipien (z.B. Energie- und Impulserhaltung) und der Möglichkeit zur skalierbaren Generierung synthetischer Daten ausgewählt.
Die Ergebnisse zeigten, dass PhysRVG eine überlegene Leistung in Bezug auf Formkonsistenz und Trajektorienpräzision im Vergleich zu bestehenden Modellen wie PhysGen und PISA aufweist. Insbesondere wurde die L2-Distanz zwischen den Schwerpunkten maskierter Regionen, die Chamfer-Distanz (CD) und der Intersection over Union (IoU)-Wert der Masken zur Bewertung herangezogen. PhysRVG erreichte hierbei die besten Gesamtleistungen.
Um die Generalisierbarkeit des Ansatzes zu demonstrieren, wurde PhysRVG auf einem großskaligen Datensatz evaluiert, der 17 Arten realer physikalischer Ereignisse aus den Bereichen Dynamik, Thermodynamik und Optik umfasste. Das Modell wurde mit domänenspezifischen Präfixen (z.B. „Optik, Ein Lichtstrahl...“) versehen, um die Assoziation visueller Phänomene mit physikalischen Gesetzen zu fördern.
Im Vergleich zu allgemeinen Videogenerierungsmodellen (wie HunyuanVideo, CogVideoX-5B) und spezialisierten physikfokussierten Modellen (wie PhyT2V, WISA) erreichte das finale PhysRVG-Modell in Stufe III die besten Ergebnisse sowohl bei der physikalischen Common-Sense (PC) als auch bei der semantischen Adhärenz (SA). Ein weiterer bemerkenswerter Vorteil ist die Effizienz des Modells, das Videos in etwa 26 Sekunden generieren kann, was deutlich schneller ist als viele iterative Methoden.
Ablationsstudien bestätigten die Wirksamkeit der einzelnen Trainingsstufen und Komponenten. Insbesondere wurde hervorgehoben, dass die alleinige Anwendung von SFT nicht ausreicht, um dem PhysEncoder ein nützliches physikalisches Verständnis zu vermitteln. Erst die Integration von DPO erschließt das Potenzial des PhysEncoders, physikalische Informationen effektiv zu extrahieren und den Generator zu physikalisch realistischeren Videos anzuleiten.
Die Principal Component Analysis (PCA) der physikalischen Merkmale des PhysEncoders in Stufe III zeigte, dass das Modell in der Lage ist, Ähnlichkeiten bei Objekten unter gleichen äußeren Kräften (z.B. Objekte in der Luft vs. auf dem Boden) zu erkennen und zwischen verschiedenen Materialien zu unterscheiden. Dies deutet auf ein tieferes physikalisches Verständnis hin.
PhysRVG stellt einen bedeutenden Fortschritt in der physikbasierten Videogenerierung dar. Durch die Einführung eines physikbasierten Reinforcement Learning Paradigmas und des Mimicry-Discovery Cycles gelingt es, physikalische Prinzipien direkt in den Generierungsprozess zu integrieren. Dies führt zu Videos, die nicht nur visuell ansprechend, sondern auch physikalisch konsistent sind. Die Generalisierbarkeit des Ansatzes über verschiedene physikalische Szenarien hinweg und die hohe Effizienz machen PhysRVG zu einer vielversprechenden Lösung für eine Vielzahl von Anwendungen, von der Robotik bis hin zu fortgeschrittenen Simulationen.
Eine Limitation des aktuellen Ansatzes ist die Abhängigkeit von menschlichen Annotatoren zur Erstellung von Präferenzdatensätzen in realen Szenarien, was kosten- und zeitintensiv sein kann. Zukünftige Forschungen könnten sich auf die Entwicklung automatisierter oder effizienterer Methoden zur Generierung solcher Präferenzdaten konzentrieren, um die Skalierbarkeit weiter zu verbessern.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen