LTX-2.3 von Lightricks: Fortschritte in der KI-gestützten Medienproduktion

Kategorien:

No items found.

Freigegeben:

March 6, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Lightricks hat das Audio-Video-Grundlagenmodell LTX-2.3 auf Hugging Face veröffentlicht.
LTX-2.3 ist eine Weiterentwicklung des LTX-2 Modells, das verbesserte Audio- und visuelle Qualität sowie eine präzisere Prompteinhaltung bietet.
Das Modell basiert auf der DiT-Architektur (Diffusion Transformer) und ermöglicht die Generierung synchronisierter Videos und Audios.
Es unterstützt verschiedene Generierungsaufgaben, darunter Text-zu-Video, Bild-zu-Video und Audio-zu-Video.
Besondere Neuerungen sind schärfere Details, eine verbesserte Prompteinhaltung, stärkere Bild-zu-Video-Fähigkeiten und sauberere Audioausgabe.
Eine native Unterstützung für Hochformatvideos (bis zu 1080x1920) wurde implementiert.
Das Modell ist in verschiedenen Varianten verfügbar, einschließlich einer voll trainierbaren Version und einer destillierten Version für schnellere Inferenz.
Zusätzliche Upscaler-Modelle ermöglichen die Erhöhung der räumlichen Auflösung und der Bildrate.
LTX-2.3 ist Open Source und kann lokal ausgeführt oder über eine API genutzt werden.

Lightricks veröffentlicht LTX-2.3: Ein Fortschritt in der KI-gestützten Videogenerierung

Das Technologieunternehmen Lightricks hat sein neuestes Audio-Video-Grundlagenmodell, LTX-2.3, auf der Plattform Hugging Face zugänglich gemacht. Diese Veröffentlichung stellt eine signifikante Weiterentwicklung im Bereich der KI-gestützten Videogenerierung dar und baut auf dem Vorgängermodell LTX-2 auf, indem es wesentliche Verbesserungen in der Qualität und Funktionalität bietet. Als Analysten für Mindverse betrachten wir diese Entwicklung mit besonderem Interesse, da sie die Möglichkeiten für B2B-Anwendungen im Content-Bereich erweitern könnte.

Architektur und Kernfunktionen

LTX-2.3 ist ein auf der Diffusion Transformer (DiT)-Architektur basierendes Modell, das darauf ausgelegt ist, synchronisierte Video- und Audioinhalte aus einer einzigen Quelle zu generieren. Das Modell integriert die Kernbausteine moderner Videogenerierung und legt den Fokus auf offene Gewichte und die praktische, lokale Ausführung. Die Fähigkeit, Audio- und visuelle Elemente in einem kohärenten Prozess zu erstellen, ist für viele Anwendungsfälle von Bedeutung.

Die Vielseitigkeit von LTX-2.3 zeigt sich in der Unterstützung verschiedener Generierungsaufgaben:

Text-zu-Video
Bild-zu-Video
Video-zu-Video
Audio-zu-Video
Text-zu-Audio
Video-zu-Audio
Audio-zu-Audio
Text-zu-Audio-Video
Bild-zu-Audio-Video
Bild-Text-zu-Audio-Video

Diese breite Palette an Funktionen positioniert LTX-2.3 als ein umfassendes Werkzeug für die Erstellung multimedialer Inhalte.

Wesentliche Verbesserungen gegenüber LTX-2

Die neue Version LTX-2.3 bringt mehrere entscheidende Verbesserungen mit sich, die die Leistung und Anwendbarkeit des Modells steigern:

Schärfere Details und verbesserter latenter Raum

Durch einen neu aufgebauten latenten Raum und ein aktualisiertes VAE (Variational Autoencoder), das mit höherwertigen Daten trainiert wurde, erzielt LTX-2.3 schärfere feine Details. Texturen, Haare, Text und Kantendetails sollen über die gesamte Generierungspipeline hinweg besser erhalten bleiben. Dies ist ein wichtiger Aspekt für die Produktion hochwertiger visueller Inhalte.

Präzisere Prompteinhaltung

Ein viermal größerer Textkonnektor ermöglicht es dem Modell, komplexe Prompts genauer zu interpretieren. Dies bedeutet, dass Anweisungen zu mehreren Subjekten, räumlichen Beziehungen und stilistischen Vorgaben präziser umgesetzt werden können. Für professionelle Anwender, die spezifische Visionen umsetzen möchten, ist dies ein erheblicher Vorteil.

Stärkere Bild-zu-Video-Funktionalität

LTX-2.3 soll eine verbesserte Bewegung und visuelle Konsistenz bei der Umwandlung von Bildern in Videos bieten. Dies reduziert das Risiko von "einfrierenden" oder unnatürlich wirkenden Bewegungen und führt zu realistischeren und nutzbareren Videoergebnissen.

Sauberere Audioausgabe

Durch gefilterte Trainingsdaten und einen neuen Vocoder wurde die Audioqualität signifikant verbessert. Weniger Artefakte, unerwartete Aussetzer und eine engere Abstimmung in Text-zu-Video- und Audi-konditionierten Workflows tragen zu einer insgesamt hochwertigeren Ausgabe bei. Insbesondere bei der Generierung von Audio ohne Sprache könnte die Qualität jedoch noch variieren.

Native Unterstützung für Hochformatvideos

Eine bemerkenswerte Neuerung ist die native Generierung von vertikalen Videos im Format 1080x1920. Das Modell wurde mit Hochformat-Daten trainiert, wodurch das Zuschneiden von Querformat-Inhalten entfällt und Videos direkt für mobile Endgeräte oder soziale Medien optimiert werden können.

Verfügbare Modellvarianten und Upscaler

LTX-2.3 wird in verschiedenen Checkpoints angeboten, um unterschiedlichen Anforderungen gerecht zu werden:

ltx-2.3-22b-dev: Das vollständige Modell, flexibel und in bf16 trainierbar, für Feinabstimmung und Forschungszwecke.
ltx-2.3-22b-distilled: Eine destillierte Version des vollständigen Modells, optimiert für schnellere Inferenz in 8 Schritten mit einem CFG-Wert von 1.
ltx-2.3-22b-distilled-lora-384: Eine LoRA-Version des destillierten Modells, anwendbar auf das vollständige Modell.

Zusätzlich sind Upscaler-Modelle verfügbar, die in mehrstufigen Pipelines für höhere Auflösungen und Bildraten eingesetzt werden können:

ltx-2.3-spatial-upscaler-x2-1.0: Ein x2 räumlicher Upscaler für die LTX-2.3 Latents.
ltx-2.3-spatial-upscaler-x1.5-1.0: Ein x1.5 räumlicher Upscaler für die LTX-2.3 Latents.
ltx-2.3-temporal-upscaler-x2-1.0: Ein x2 temporaler Upscaler für die LTX-2.3 Latents, zur Erhöhung der FPS.

Diese Module ermöglichen es, Videos zunächst in einer handhabbaren Auflösung zu generieren und anschließend zu skalieren, was die Zugänglichkeit für Hardware mit geringerer Leistung verbessert.

Technische Anforderungen und Integration

Für die lokale Ausführung von LTX-2.3 sind Python >=3.12, CUDA >12.7 und PyTorch ~= 2.7 erforderlich. Die Eingabeauflösungen für Breite und Höhe müssen durch 32 teilbar sein, und die Frame-Anzahl muss durch 8 + 1 teilbar sein. Bei Nicht-Einhaltung dieser Vorgaben sollten die Eingaben entsprechend angepasst werden.

Das Modell kann über die offizielle PyTorch-Codebasis genutzt oder in ComfyUI über die integrierten LTXVideo-Knoten eingesetzt werden. Die Unterstützung in der Diffusers Python-Bibliothek ist ebenfalls in Vorbereitung, was die Kompatibilität mit dem breiteren KI-Tool-Ökosystem erweitern wird.

Die Bereitstellung als Open-Source-Modell auf Hugging Face ermöglicht es Unternehmen und Entwicklern, direkten Zugriff auf die Modellgewichte und den Code zu erhalten. Die Lizenz erlaubt die Nutzung für Unternehmen mit einem Jahresumsatz unter 10 Millionen US-Dollar. Für größere Unternehmen stehen Lizenzprogramme und eine API-Nutzung zur Verfügung.

Anwendungsbereiche und Limitationen

LTX-2.3 bietet vielfältige Möglichkeiten für die Erstellung von Marketingmaterialien, Produktvideos, Erklärvideos und anderen visuellen Inhalten. Die verbesserte Qualität und Anpassungsfähigkeit könnten die Effizienz in der Content-Produktion steigern.

Es ist jedoch wichtig, die Limitationen des Modells zu beachten: LTX-2.3 ist nicht dafür konzipiert oder in der Lage, faktische Informationen zu liefern. Als statistisches Modell kann es bestehende gesellschaftliche Verzerrungen verstärken. Die Qualität der generierten Videos kann variieren und die Prompteinhaltung ist stark vom Stil der Prompts abhängig. Zudem besteht das Risiko, dass unangemessene oder beleidigende Inhalte generiert werden könnten.

Fazit

Die Veröffentlichung von LTX-2.3 durch Lightricks stellt einen bemerkenswerten Schritt in der Entwicklung von KI-gestützten Audio-Video-Generierungsmodellen dar. Die Verbesserungen in Detailgenauigkeit, Prompteinhaltung, Audioqualität und die native Unterstützung für Hochformatvideos bieten neue Möglichkeiten für die Erstellung multimedialer Inhalte. Für B2B-Anwender, die an der Automatisierung und Skalierung ihrer Videoproduktion interessiert sind, könnte LTX-2.3 ein wertvolles Werkzeug darstellen, das eine detaillierte Evaluierung der spezifischen Anwendungsfälle rechtfertigt.

Bibliographie

- Lightricks/LTX-2.3. Hugging Face. Verfügbar unter: https://huggingface.co/Lightricks/LTX-2.3 - LTX-2.3: Introducing LTX's Latest AI Video Model. LTX Website. Verfügbar unter: https://ltx.io/model/ltx-2-3 - LTX-2.3: Lightricks Upgrades Its Open Source Audio Video Model. AI FILMS LLC. Veröffentlicht am 5. März 2026. - LTX-2.3 - a Lightricks Collection. Hugging Face. Verfügbar unter: https://huggingface.co/collections/Lightricks/ltx-23 - RuneXX/LTX-2.3-Workflows. Hugging Face. Verfügbar unter: https://huggingface.co/RuneXX/LTX-2.3-Workflows - QuantStack/LTX-2.3-GGUF. Hugging Face. Verfügbar unter: https://huggingface.co/QuantStack/LTX-2.3-GGUF - Lightricks/LTX-2. Hugging Face. Verfügbar unter: https://huggingface.co/Lightricks/LTX-2 - GitHub - Lightricks/LTX-2. Verfügbar unter: https://github.com/Lightricks/LTX-2 - Lightricks/LTX-2.3 at main. Hugging Face. Verfügbar unter: https://huggingface.co/Lightricks/LTX-2.3/tree/main