Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Das Technologieunternehmen Lightricks hat sein neuestes Audio-Video-Grundlagenmodell, LTX-2.3, auf der Plattform Hugging Face zugänglich gemacht. Diese Veröffentlichung stellt eine signifikante Weiterentwicklung im Bereich der KI-gestützten Videogenerierung dar und baut auf dem Vorgängermodell LTX-2 auf, indem es wesentliche Verbesserungen in der Qualität und Funktionalität bietet. Als Analysten für Mindverse betrachten wir diese Entwicklung mit besonderem Interesse, da sie die Möglichkeiten für B2B-Anwendungen im Content-Bereich erweitern könnte.
LTX-2.3 ist ein auf der Diffusion Transformer (DiT)-Architektur basierendes Modell, das darauf ausgelegt ist, synchronisierte Video- und Audioinhalte aus einer einzigen Quelle zu generieren. Das Modell integriert die Kernbausteine moderner Videogenerierung und legt den Fokus auf offene Gewichte und die praktische, lokale Ausführung. Die Fähigkeit, Audio- und visuelle Elemente in einem kohärenten Prozess zu erstellen, ist für viele Anwendungsfälle von Bedeutung.
Die Vielseitigkeit von LTX-2.3 zeigt sich in der Unterstützung verschiedener Generierungsaufgaben:
Diese breite Palette an Funktionen positioniert LTX-2.3 als ein umfassendes Werkzeug für die Erstellung multimedialer Inhalte.
Die neue Version LTX-2.3 bringt mehrere entscheidende Verbesserungen mit sich, die die Leistung und Anwendbarkeit des Modells steigern:
Durch einen neu aufgebauten latenten Raum und ein aktualisiertes VAE (Variational Autoencoder), das mit höherwertigen Daten trainiert wurde, erzielt LTX-2.3 schärfere feine Details. Texturen, Haare, Text und Kantendetails sollen über die gesamte Generierungspipeline hinweg besser erhalten bleiben. Dies ist ein wichtiger Aspekt für die Produktion hochwertiger visueller Inhalte.
Ein viermal größerer Textkonnektor ermöglicht es dem Modell, komplexe Prompts genauer zu interpretieren. Dies bedeutet, dass Anweisungen zu mehreren Subjekten, räumlichen Beziehungen und stilistischen Vorgaben präziser umgesetzt werden können. Für professionelle Anwender, die spezifische Visionen umsetzen möchten, ist dies ein erheblicher Vorteil.
LTX-2.3 soll eine verbesserte Bewegung und visuelle Konsistenz bei der Umwandlung von Bildern in Videos bieten. Dies reduziert das Risiko von "einfrierenden" oder unnatürlich wirkenden Bewegungen und führt zu realistischeren und nutzbareren Videoergebnissen.
Durch gefilterte Trainingsdaten und einen neuen Vocoder wurde die Audioqualität signifikant verbessert. Weniger Artefakte, unerwartete Aussetzer und eine engere Abstimmung in Text-zu-Video- und Audi-konditionierten Workflows tragen zu einer insgesamt hochwertigeren Ausgabe bei. Insbesondere bei der Generierung von Audio ohne Sprache könnte die Qualität jedoch noch variieren.
Eine bemerkenswerte Neuerung ist die native Generierung von vertikalen Videos im Format 1080x1920. Das Modell wurde mit Hochformat-Daten trainiert, wodurch das Zuschneiden von Querformat-Inhalten entfällt und Videos direkt für mobile Endgeräte oder soziale Medien optimiert werden können.
LTX-2.3 wird in verschiedenen Checkpoints angeboten, um unterschiedlichen Anforderungen gerecht zu werden:
Zusätzlich sind Upscaler-Modelle verfügbar, die in mehrstufigen Pipelines für höhere Auflösungen und Bildraten eingesetzt werden können:
Diese Module ermöglichen es, Videos zunächst in einer handhabbaren Auflösung zu generieren und anschließend zu skalieren, was die Zugänglichkeit für Hardware mit geringerer Leistung verbessert.
Für die lokale Ausführung von LTX-2.3 sind Python >=3.12, CUDA >12.7 und PyTorch ~= 2.7 erforderlich. Die Eingabeauflösungen für Breite und Höhe müssen durch 32 teilbar sein, und die Frame-Anzahl muss durch 8 + 1 teilbar sein. Bei Nicht-Einhaltung dieser Vorgaben sollten die Eingaben entsprechend angepasst werden.
Das Modell kann über die offizielle PyTorch-Codebasis genutzt oder in ComfyUI über die integrierten LTXVideo-Knoten eingesetzt werden. Die Unterstützung in der Diffusers Python-Bibliothek ist ebenfalls in Vorbereitung, was die Kompatibilität mit dem breiteren KI-Tool-Ökosystem erweitern wird.
Die Bereitstellung als Open-Source-Modell auf Hugging Face ermöglicht es Unternehmen und Entwicklern, direkten Zugriff auf die Modellgewichte und den Code zu erhalten. Die Lizenz erlaubt die Nutzung für Unternehmen mit einem Jahresumsatz unter 10 Millionen US-Dollar. Für größere Unternehmen stehen Lizenzprogramme und eine API-Nutzung zur Verfügung.
LTX-2.3 bietet vielfältige Möglichkeiten für die Erstellung von Marketingmaterialien, Produktvideos, Erklärvideos und anderen visuellen Inhalten. Die verbesserte Qualität und Anpassungsfähigkeit könnten die Effizienz in der Content-Produktion steigern.
Es ist jedoch wichtig, die Limitationen des Modells zu beachten: LTX-2.3 ist nicht dafür konzipiert oder in der Lage, faktische Informationen zu liefern. Als statistisches Modell kann es bestehende gesellschaftliche Verzerrungen verstärken. Die Qualität der generierten Videos kann variieren und die Prompteinhaltung ist stark vom Stil der Prompts abhängig. Zudem besteht das Risiko, dass unangemessene oder beleidigende Inhalte generiert werden könnten.
Die Veröffentlichung von LTX-2.3 durch Lightricks stellt einen bemerkenswerten Schritt in der Entwicklung von KI-gestützten Audio-Video-Generierungsmodellen dar. Die Verbesserungen in Detailgenauigkeit, Prompteinhaltung, Audioqualität und die native Unterstützung für Hochformatvideos bieten neue Möglichkeiten für die Erstellung multimedialer Inhalte. Für B2B-Anwender, die an der Automatisierung und Skalierung ihrer Videoproduktion interessiert sind, könnte LTX-2.3 ein wertvolles Werkzeug darstellen, das eine detaillierte Evaluierung der spezifischen Anwendungsfälle rechtfertigt.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen