Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Entwicklung im Bereich der KI-basierten Bildgenerierung schreitet rasant voran. Neue Modelle werden kontinuierlich vorgestellt, die bestehenden Ansätze optimieren und neue Leistungsstandards setzen. Ein jüngstes Beispiel hierfür ist Tencents X-Omni, ein System, das einen innovativen Ansatz verfolgt und mit etablierten Modellen wie GPT-4o konkurriert. Im Fokus der Entwicklung steht die Verbesserung der Textausgabe innerhalb generierter Bilder, ein Bereich, der bisher häufig als Herausforderung in der KI-Bildgenerierung galt.
Viele moderne KI-Systeme zur Bildgenerierung basieren auf hybriden Ansätzen. Diese kombinieren autoregressive Modelle, die semantische Token generieren, mit Diffusionsmodellen, die die eigentliche Bildsynthese durchführen. Ein wesentliches Problem dieser Hybridsysteme besteht darin, dass die vom autoregressiven Modell generierten Token nicht immer optimal mit den Erwartungen des Diffusionsdecoders übereinstimmen. Dies führt zu Qualitätseinbußen in den generierten Bildern.
Tencents X-Omni geht dieses Problem auf innovative Weise an. Anstatt die autoregressiven und Diffusionsmodelle separat zu trainieren, setzt das System auf verstärktes Lernen (Reinforcement Learning). Dabei wird ein Evaluierungssystem eingesetzt, das die Qualität der generierten Bilder bewertet und dem autoregressiven Modell Feedback liefert. Dieses Feedback ermöglicht es dem Modell, seine Token-Generierung so anzupassen, dass der Diffusionsdecoder effektiver arbeiten kann. Die Forschungsarbeit zeigt, dass die Bildqualität während des Trainings durch verstärktes Lernen kontinuierlich verbessert wird.
X-Omni verwendet das FLUX.1-dev Diffusionsmodell des deutschen Startups Black Forest Labs als Decoder. Die semantische Tokenisierung erfolgt mittels eines SigLIP-VQ Tokenizers, der Bilder in 16.384 verschiedene semantische Token zerlegt. Als Basis dient das Open-Source-Sprachmodell Qwen2.5-7B von Alibaba, erweitert um zusätzliche Schichten für die Bildverarbeitung. Für das verstärkte Lernen wurde eine umfassende Evaluierungspipeline entwickelt, die menschliche Bewertungen der Ästhetik, ein Modell zur Bewertung von hochauflösenden Bildern und das Vision-Language-Modell Qwen2.5-VL-32B zur Überprüfung der Übereinstimmung von generierten Bildern mit den Eingabeaufforderungen umfasst. Die Genauigkeit der Textausgabe wird mit den OCR-Systemen GOT-OCR-2.0 und PaddleOCR bewertet.
In verschiedenen Benchmarks zeigt X-Omni eine überzeugende Leistung. Besonders hervorzuheben ist die hohe Genauigkeit bei der Textausgabe in Bildern. In etablierten Benchmarks erreicht das System einen Wert von 0,901 für englischen Text und übertrifft damit vergleichbare Systeme. Bei chinesischem Text übertrifft X-Omni sogar GPT-4o. Ein selbst entwickelter Benchmark für längere Textpassagen zeigt ebenfalls die Stärke von X-Omni, insbesondere bei chinesischen Texten. Auch bei der allgemeinen Bildgenerierung erreicht X-Omni gute Ergebnisse und liegt in manchen Benchmarks knapp vor GPT-4o.
Ein besonderes Merkmal von X-Omni ist seine basierend auf Open-Source-Komponenten. Das Modell verbindet Technologien verschiedener Forschungsteams und ist selbst als Open-Source-Projekt auf Hugging Face und GitHub verfügbar. Dies unterstreicht den Trend zur Zusammenarbeit und zum Austausch von Wissen in der KI-Forschung. Obwohl die Leistungssteigerungen gegenüber bestehenden Modellen teilweise marginal sind, zeigt X-Omni einen vielversprechenden Ansatz und unterstreicht das Potenzial von verstärktem Lernen für die Optimierung hybrider Bildgenerierungssysteme. Die Verfügbarkeit als Open-Source-Projekt ermöglicht es der Forschungscommunity, das Modell weiterzuentwickeln und zu verbessern.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen