Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die virtuelle Anprobe, ein Schlüsselelement im Online-Handel und bei personalisierten Modeempfehlungen, steht vor einer signifikanten Weiterentwicklung. Ein neues Modell namens EVTAR (End-to-End Virtual Try-on with Additional Unpaired Visual Reference) verspricht, die Genauigkeit und den Realismus der virtuellen Anprobe erheblich zu verbessern, indem es zusätzliche Referenzbilder nutzt und gleichzeitig die Komplexität der Eingabedaten reduziert.
Bisherige Methoden zur virtuellen Anprobe, insbesondere solche, die auf Generative Adversarial Networks (GANs) oder neuerdings auf Diffusionsmodellen basieren, haben zwar Fortschritte erzielt, sind aber oft mit Einschränkungen verbunden. Viele dieser Ansätze erfordern komplexe Eingaben wie:
Diese Anforderungen machen die Modelle ressourcenintensiv und in praktischen Anwendungen oft unhandlich. Zudem können bei komplexen Kleidungsstrukturen oder herausfordernden Posen unrealistische Artefakte entstehen. Die Detailtreue von Texturen und feinen Designelementen, wie beispielsweise Spitze oder transparente Stoffe, bleibt oft unzureichend.
EVTAR geht diese Herausforderungen mit einem zweistufigen Trainingsansatz an, der eine vereinfachte Inferenz ermöglicht. Das Modell benötigt lediglich ein Quellbild der Person und das Bild des Zielkleidungsstücks. Es verzichtet auf die Notwendigkeit von Masken, Densepose oder Segmentierungskarten, was die Anwendung in der Praxis erheblich vereinfacht.
Ein zentraler Aspekt von EVTAR ist die Einbeziehung zusätzlicher Referenzbilder. Diese Referenzbilder zeigen andere Personen, die dasselbe Kleidungsstück tragen. Dieser Mechanismus simuliert, wie Menschen in der realen Welt, beispielsweise beim Online-Einkauf, Referenzmodelle betrachten, um eine Vorstellung vom Aussehen eines Kleidungsstücks zu bekommen.
Die Vorteile der Referenzbilder sind vielfältig:
Die Entwicklung von EVTAR basiert auf einer sorgfältig konzipierten zweistufigen Trainingsstrategie:
Um ein Modell zu ermöglichen, das direkt mit einem Personenbild als Eingabe arbeitet und nicht auf Segmentierungsmasken angewiesen ist, wird zunächst ein Trainingsdatensatz mit "unpaaren" Personenbildern erstellt. Dies bedeutet, dass Bilder von Personen, die unterschiedliche Kleidung als das Zielkleidungsstück tragen, synthetisiert werden. Dieser Prozess erfolgt mithilfe eines maskenbasierten Try-on-Modells, das agnostische Personenbilder, Kleidung, Densepose-Karten und Hilfsbedingungen nutzt.
In der zweiten Phase werden die synthetisierten Personenbilder und die agnostischen Bilder zusammen mit dem Zielkleidungsstück und optional den zusätzlichen Referenzbildern als Eingaben verwendet. Dies trainiert ein End-to-End-Modell, das das Zielkleidungsstück direkt auf das Personenbild anpasst.
Um Flexibilität bei maskierten und unmaskierten Eingaben zu gewährleisten, werden während des Trainings agnostische und Personenbilder mit gleicher Wahrscheinlichkeit (50%) eingespeist. Dabei wird ein Flux-Kontext-Modell als Basis verwendet und mittels Low-Rank Adaptation (LoRA) feinabgestimmt, um die Parameter effizient anzupassen.
Die Generierung der Referenzbilder ist ein kritischer Bestandteil des EVTAR-Ansatzes. Diese synthetisch erzeugten Bilder müssen bestimmte Anforderungen erfüllen:
Für die Generierung dieser Referenzbilder wird ein Vision Language Model wie Qwen2.5-VL eingesetzt, um detaillierte Beschreibungen des Modellaussehens zu generieren und Varianten zu produzieren, die dem Originalmodell nicht ähneln. Anschließend werden diese Beschreibungen mit Aktionen und Outfits zu Positiv- und Negativ-Prompts kombiniert und in ein Bearbeitungsmodell eingespeist, das die Referenzbilder erzeugt.
EVTAR wurde auf zwei weit verbreiteten Benchmarks, DressCode und VITON-HD, evaluiert. Die Ergebnisse zeigen durchweg eine überlegene Leistung im Vergleich zu früheren Ansätzen. Das Modell erreicht bessere Werte bei Metriken wie SSIM (Structural Similarity Index), LPIPS (Learned Perceptual Image Patch Similarity), FID (Fréchet Inception Distance) und KID (Kernel Inception Distance).
Besonders hervorzuheben ist, dass die Qualität und Detailtreue der Anprobe-Ergebnisse durch die Hinzunahme von Referenzbildern weiter verbessert wird. Selbst in maskenfreien Szenarien, ohne agnostische Masken oder zusätzliche Hilfseingaben, behält EVTAR die Stilkorrektheit des Kleidungsstücks und die Posenkonsistenz bei, was seine Robustheit und Praktikabilität unterstreicht.
Qualitative Vergleiche belegen, dass EVTAR in der Lage ist, herausfordernde Materialien wie Hohl- oder halbtransparente Stoffe sowie feine Details wie Spitze oder aufgedruckte Logos und Buchstaben mit hoher Genauigkeit zu rendern. Andere Modelle scheitern oft daran, diese Details präzise zu reproduzieren.
EVTAR stellt einen bedeutenden Fortschritt im Bereich der virtuellen Anprobe dar. Durch die Kombination eines End-to-End-Ansatzes mit der intelligenten Nutzung zusätzlicher visueller Referenzen überwindet es wesentliche Einschränkungen traditioneller Methoden. Die Vereinfachung der Eingabedaten und die verbesserte Detailtreue machen EVTAR zu einem vielversprechenden Werkzeug für den E-Commerce und andere Anwendungen, die eine realistische und qualitativ hochwertige virtuelle Anprobe erfordern. Die Fähigkeit des Modells zur Generalisierung auf unterschiedlichste Datensätze unterstreicht sein Potenzial für den praktischen Einsatz in der Industrie.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen