Tencents X-Omni: Ein neuer Ansatz in der KI-Bildgenerierung mit Open-Source-Technologien

Kategorien:

No items found.

Freigegeben:

August 18, 2025

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Tencents X-Omni, ein neuartiges KI-Bildgenerierungsmodell, kombiniert automatische Regressionsmodelle mit Diffusionsmodellen unter Verwendung von verstärktem Lernen.
Das System erzielt insbesondere bei der Textausgabe in Bildern bemerkenswerte Ergebnisse und übertrifft in einigen Benchmarks sogar GPT-4o.
X-Omni basiert auf Open-Source-Komponenten verschiedener Anbieter und ist selbst Open-Source verfügbar.
Die Leistungssteigerungen gegenüber bestehenden Modellen sind zwar teilweise marginal, dennoch stellt X-Omni einen vielversprechenden Ansatz dar.
Der modulare Aufbau und die Verwendung von Open-Source-Technologien sind besonders hervorzuheben.

Tencents X-Omni: Ein Open-Source-Ansatz zur Bildgenerierung

Die Entwicklung im Bereich der KI-basierten Bildgenerierung schreitet rasant voran. Neue Modelle werden kontinuierlich vorgestellt, die bestehenden Ansätze optimieren und neue Leistungsstandards setzen. Ein jüngstes Beispiel hierfür ist Tencents X-Omni, ein System, das einen innovativen Ansatz verfolgt und mit etablierten Modellen wie GPT-4o konkurriert. Im Fokus der Entwicklung steht die Verbesserung der Textausgabe innerhalb generierter Bilder, ein Bereich, der bisher häufig als Herausforderung in der KI-Bildgenerierung galt.

Hybridansätze und ihre Herausforderungen

Viele moderne KI-Systeme zur Bildgenerierung basieren auf hybriden Ansätzen. Diese kombinieren autoregressive Modelle, die semantische Token generieren, mit Diffusionsmodellen, die die eigentliche Bildsynthese durchführen. Ein wesentliches Problem dieser Hybridsysteme besteht darin, dass die vom autoregressiven Modell generierten Token nicht immer optimal mit den Erwartungen des Diffusionsdecoders übereinstimmen. Dies führt zu Qualitätseinbußen in den generierten Bildern.

X-Omni: Verstärktes Lernen für verbesserte Koordination

Tencents X-Omni geht dieses Problem auf innovative Weise an. Anstatt die autoregressiven und Diffusionsmodelle separat zu trainieren, setzt das System auf verstärktes Lernen (Reinforcement Learning). Dabei wird ein Evaluierungssystem eingesetzt, das die Qualität der generierten Bilder bewertet und dem autoregressiven Modell Feedback liefert. Dieses Feedback ermöglicht es dem Modell, seine Token-Generierung so anzupassen, dass der Diffusionsdecoder effektiver arbeiten kann. Die Forschungsarbeit zeigt, dass die Bildqualität während des Trainings durch verstärktes Lernen kontinuierlich verbessert wird.

Architektur und verwendete Technologien

X-Omni verwendet das FLUX.1-dev Diffusionsmodell des deutschen Startups Black Forest Labs als Decoder. Die semantische Tokenisierung erfolgt mittels eines SigLIP-VQ Tokenizers, der Bilder in 16.384 verschiedene semantische Token zerlegt. Als Basis dient das Open-Source-Sprachmodell Qwen2.5-7B von Alibaba, erweitert um zusätzliche Schichten für die Bildverarbeitung. Für das verstärkte Lernen wurde eine umfassende Evaluierungspipeline entwickelt, die menschliche Bewertungen der Ästhetik, ein Modell zur Bewertung von hochauflösenden Bildern und das Vision-Language-Modell Qwen2.5-VL-32B zur Überprüfung der Übereinstimmung von generierten Bildern mit den Eingabeaufforderungen umfasst. Die Genauigkeit der Textausgabe wird mit den OCR-Systemen GOT-OCR-2.0 und PaddleOCR bewertet.

Benchmark-Ergebnisse und Leistungsfähigkeit

In verschiedenen Benchmarks zeigt X-Omni eine überzeugende Leistung. Besonders hervorzuheben ist die hohe Genauigkeit bei der Textausgabe in Bildern. In etablierten Benchmarks erreicht das System einen Wert von 0,901 für englischen Text und übertrifft damit vergleichbare Systeme. Bei chinesischem Text übertrifft X-Omni sogar GPT-4o. Ein selbst entwickelter Benchmark für längere Textpassagen zeigt ebenfalls die Stärke von X-Omni, insbesondere bei chinesischen Texten. Auch bei der allgemeinen Bildgenerierung erreicht X-Omni gute Ergebnisse und liegt in manchen Benchmarks knapp vor GPT-4o.

Open-Source-Charakter und Ausblick

Ein besonderes Merkmal von X-Omni ist seine basierend auf Open-Source-Komponenten. Das Modell verbindet Technologien verschiedener Forschungsteams und ist selbst als Open-Source-Projekt auf Hugging Face und GitHub verfügbar. Dies unterstreicht den Trend zur Zusammenarbeit und zum Austausch von Wissen in der KI-Forschung. Obwohl die Leistungssteigerungen gegenüber bestehenden Modellen teilweise marginal sind, zeigt X-Omni einen vielversprechenden Ansatz und unterstreicht das Potenzial von verstärktem Lernen für die Optimierung hybrider Bildgenerierungssysteme. Die Verfügbarkeit als Open-Source-Projekt ermöglicht es der Forschungscommunity, das Modell weiterzuentwickeln und zu verbessern.

Bibliographie

- https://the-decoder.com/tencents-x-omni-uses-open-source-components-to-challenge-gpt-4o-image-generation/ - https://the-decoder.de/tencents-bild-ki-x-omni-vereint-open-source-komponenten-zu-einem-gpt-4o-konkurrenten/ - https://www.linkedin.com/posts/the-decoder-en_tencents-x-omni-uses-open-source-components-activity-7362382463664332800-2JNO - https://x.com/aibreakhq/status/1956659335507087714 - https://arxiv.org/html/2507.22058v1 - https://news.aibase.com/news/20110 - https://opentech.news/ - https://de.linkedin.com/company/the-decoder-en - https://x.com/365tipu/status/1956651842626031907 - https://arxiv.org/html/2502.04328v3