Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die rapide Entwicklung im Bereich der künstlichen Intelligenz hat zu signifikanten Fortschritten in der Bildgenerierung und -bearbeitung geführt. Insbesondere Diffusionsmodelle haben hier neue Maßstäbe gesetzt. Traditionell erfordern diese Modelle jedoch umfangreiche Rechenressourcen und sind oft nur auf leistungsstarken Servern effizient einsetzbar. Die Bereitstellung dieser Funktionen direkt auf Endgeräten wie Smartphones stellt eine erhebliche technische Herausforderung dar. Hier setzt das Forschungsprojekt „DreamLite“ an, das ein schlankes, einheitliches On-Device-Modell für die Bildgenerierung und -bearbeitung vorstellt.
Diffusionsmodelle, die Text in Bilder umwandeln (Text-to-Image, T2I) oder textgesteuerte Bildbearbeitung (Image-to-Image, I2I) ermöglichen, sind oft mit Milliarden von Parametern ausgestattet. Dies führt zu hoher Latenz und erschwert den Einsatz auf Geräten mit begrenzten Ressourcen. Während einige On-Device-Diffusionsmodelle die Effizienz verbessert haben, konzentrieren sie sich meist auf die T2I-Generierung und bieten keine umfassende Unterstützung für die Bildbearbeitung. Eine integrierte Lösung, die beide Funktionen in einem einzigen Modell vereint und dabei die strengen Anforderungen an Speicher und Latenz auf mobilen Geräten erfüllt, fehlte bislang.
DreamLite, ein Entwicklungsprojekt unter der Leitung von Kailai Feng und seinem Team, adressiert diese Lücke. Es handelt sich um ein kompaktes, einheitliches In-Device-Diffusionsmodell mit nur 0,39 Milliarden Parametern, das sowohl die T2I-Generierung als auch die textgesteuerte Bildbearbeitung innerhalb eines einzigen Netzwerks unterstützt. Die Architektur basiert auf einem beschnittenen mobilen U-Net-Backbone, das für den Multi-Task-Einsatz erweitert wurde.
Das DreamLite-Modell besteht aus drei Hauptmodulen:
Um die vereinheitlichte Generierung und Bearbeitung zu ermöglichen, wurde ein In-Context-Konditionierungsmechanismus eingeführt. Dieser Mechanismus verkettet Bilder horizontal im Latenzraum. Für Generierungsaufgaben wird das Zielbild mit einem leeren Bild kombiniert, während für Bearbeitungsaufgaben das Zielbild mit dem Quellbild kombiniert wird. Um die Aufgabenambiguität zu reduzieren, werden explizite Aufgaben-Tokens (z.B. „[Generate]“ oder „[Edit]“) den Text-Prompts vorangestellt. Dieses Design ermöglicht ein effektives Aufgaben-Routing innerhalb eines gemeinsamen Parameterraums, ohne zusätzliche Parameter oder spezialisierte Zweige einzuführen.
Die Effizienz war ein zentrales Designziel von DreamLite. Basierend auf der SnapGen-Architektur, einer komprimierten Version von SDXL, wurde das U-Net-Backbone sowohl flacher als auch schlanker gestaltet. Die Anzahl der Transformer-Blöcke wurde reduziert, und die Kanalabmessungen wurden verringert. Weitere Optimierungen umfassen:
Diese Schritte führten zu einer Komprimierung des 2,5 Mrd. Parameter umfassenden Baselines auf ein hocheffizientes 389 Mio. Parameter großes Backbone, das die FLOPs signifikant reduziert, während die generative Leistung erhalten bleibt.
Für die Textkonditionierung verwendet DreamLite den Qwen3-VL-2B als Text-Encoder, dessen robuste visuell-sprachliche Fähigkeiten eine präzise semantische Ausrichtung zwischen Benutzeranweisungen und generiertem Inhalt gewährleisten. Der Variational Autoencoder (VAE) ist mit nur 2,5 Millionen Parametern extrem leichtgewichtig und ermöglicht eine effiziente Bildtokenisierung.
Das Training eines kompakten Modells mit einer vereinheitlichten Formulierung ist aufgrund seiner begrenzten Kapazität und der unterschiedlichen Optimierungsziele für Generierungs- und Bearbeitungsaufgaben eine Herausforderung. Um eine stabile Konvergenz zu gewährleisten, wurde eine aufgabenprogressive gemeinsame Pre-Training-Strategie (Task-Progressive Joint Pretraining, TPJ) entwickelt.
Nach dem Pre-Training wird eine zweistufige Post-Training-Strategie angewendet:
Um die Latenz für Echtzeitanwendungen zu reduzieren, wird die Distribution Matching Distillation (DMD2) angewendet. Diese Technik komprimiert den Denoising-Prozess auf lediglich 4 Schritte, ohne die visuelle Qualität wesentlich zu beeinträchtigen. Dies ermöglicht es DreamLite, ein 1024x1024 Pixel großes Bild in weniger als einer Sekunde auf einem Smartphone zu generieren oder zu bearbeiten.
DreamLite wurde umfassend auf verschiedenen Benchmarks evaluiert, die sowohl die Bildgenerierungs- als auch die Bildbearbeitungsfähigkeiten bewerten.
Auf den GenEval- und DPG-Benchmarks, die die Qualität der Generierung bewerten, zeigt DreamLite (0,39 Mrd. Parameter) eine wettbewerbsfähige Leistung. Es erreicht GenEval (0,72) und DPG (85,8), was mit Modellen vergleichbar ist, die fast zehnmal mehr Parameter besitzen. Es übertrifft spezialisierte, leichtgewichtige Baselines wie SnapGen und SANA-0.6B.
Für die Bearbeitungseffizienz wurde DreamLite auf den ImgEdit- und GEdit-Benchmarks getestet. Mit einem ImgEdit-Wert von 4,11 und einem GEdit-Wert von 6,88 erzielt DreamLite Spitzenleistungen unter allen leichtgewichtigen Modellen und ist damit eines der ersten Modelle, das Bildbearbeitungsaufgaben auf Geräten mit einer Modellgröße von deutlich unter 0,5 Milliarden Parametern erfolgreich ausführt.
Die qualitativen Ergebnisse zeigen, dass DreamLite trotz seiner geringeren Größe eine hohe strukturelle Integrität und semantische Ausrichtung beibehält. Bei komplexen Prompts werden atmosphärische Beleuchtung und konsistente strukturelle Details akkurat erfasst. Auch bei stilisierten und fantasievollen Generierungsaufgaben zeigt das Modell ein tiefes Verständnis für stilistische Nuancen und komplexe räumliche Kompositionen. Bei der Bildbearbeitung demonstriert DreamLite ein präzises Verständnis räumlicher Beziehungen und Okklusionen, selbst bei komplexen Stil- und Hintergrundtransformationen.
Praktische Tests auf Smartphones wie dem Xiaomi 14 zeigten, dass DreamLite eine 1024x1024-Bildgenerierung oder -bearbeitung in weniger als einer Sekunde abschließt. Die U-Net-Inferenz pro Schritt beträgt auf dem Snapdragon 8 Gen3 lediglich 103,84 ms, was zu einer Gesamtgenerierungs- oder Bearbeitungszeit von etwa 0,42 s (ohne VAE) führt. Inklusive VAE-Dekodierung und System-Overhead bleibt das End-to-End-Benutzererlebnis nahe der 1-Sekunden-Schwelle.
Trotz der beeindruckenden Effizienz und Vielseitigkeit von DreamLite gibt es noch Bereiche für zukünftige Forschung und Entwicklung:
DreamLite stellt einen signifikanten Fortschritt im Bereich der On-Device-KI dar. Durch die Vereinheitlichung von Bildgenerierung und -bearbeitung in einem einzigen, kompakten Modell, kombiniert mit einer intelligenten Trainingsstrategie und Effizienzoptimierungen, überwindet es die traditionellen Grenzen von Rechenleistung und Latenz auf mobilen Geräten. Die Fähigkeit, hochauflösende Bilder in Echtzeit zu generieren und zu bearbeiten, eröffnet neue Möglichkeiten für mobile Anwendungen und verbessert die Benutzererfahrung erheblich. DreamLite ist ein Beispiel dafür, wie innovative Forschung die Leistungsfähigkeit von KI-Modellen auf Endgeräten maximieren kann.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen