Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die jüngsten Fortschritte in der Text-zu-Bild-Generierung haben die visuelle Qualität und Kreativität erheblich gesteigert. Dennoch stehen aktuelle Modelle vor Herausforderungen, wenn es darum geht, komplexe räumliche Beziehungen in Prompts präzise umzusetzen. Dies führt oft zu suboptimalen Ergebnissen, die mehrere Versuche erfordern. In diesem Kontext präsentiert eine neue Forschungsarbeit, „Enhancing Spatial Understanding in Image Generation via Reward Modeling“, einen innovativen Ansatz zur Verbesserung des räumlichen Verständnisses von Bildgenerierungsmodellen mittels Reward-Modellierung.
Die Generierung von Bildern, die detaillierte räumliche Anordnungen von Objekten akkurat wiedergeben, bleibt eine anspruchsvolle Aufgabe für KI-Modelle. Bestehende Text-zu-Bild-Modelle generieren zwar visuell ansprechende Bilder, scheitern jedoch häufig an der präzisen Wiedergabe komplexer räumlicher Anweisungen, wie beispielsweise „ein roter Ball links von einem blauen Würfel auf einem grünen Tisch“. Diese Limitationen sind besonders relevant für B2B-Anwendungen, bei denen hohe Präzision und Verlässlichkeit der generierten Inhalte entscheidend sind, etwa im E-Commerce, Produktdesign oder in der Architekturvisualisierung.
Um dieses Problem anzugehen, wurde das SpatialReward-Dataset entwickelt. Es umfasst über 80.000 Präferenzpaare, die speziell darauf ausgelegt sind, Modelle im räumlichen Verständnis zu trainieren. Jedes Paar besteht aus einem „perfekten“ Bild, das die räumlichen Beziehungen korrekt darstellt, und einem „gestörten“ Bild, das bewusste Abweichungen enthält. Die Erstellung dieses Datasets erfolgte durch den Einsatz fortschrittlicher Sprachmodelle wie GPT-5 zur Generierung komplexer Prompts und deren gezielter Modifikation, um räumliche Beziehungen zu verändern. Menschliche Experten haben anschließend alle Paare sorgfältig überprüft und validiert, um eine hohe Datenqualität zu gewährleisten.
Basierend auf diesem umfangreichen Dataset wurde SpatialScore entwickelt – ein Reward-Modell, das speziell zur Bewertung der Genauigkeit räumlicher Beziehungen in der Bildgenerierung konzipiert ist. Dieses Modell übertrifft in seiner Fähigkeit zur räumlichen Bewertung selbst führende proprietäre Modelle. Es wurde durch Feinabstimmung eines Visual Language Models (VLM) wie Qwen2.5-VL-7B trainiert, wobei eine LoRA-Architektur (Low-Rank Adaptation) zum Einsatz kam. Die Trainingsmethode verwendet ein Bradley-Terry-Modell, um Präferenzen zu lernen und höhere Scores für präferierte Bilder zu vergeben.
Ein zentraler Bestandteil des Ansatzes ist die Integration von SpatialScore in ein Online Reinforcement Learning (RL)-Framework. Dies ermöglicht es dem Bildgenerierungsmodell, kontinuierlich aus dem Feedback von SpatialScore zu lernen und sein räumliches Verständnis iterativ zu verbessern. Hierfür wurde der GRPO-Algorithmus (Group Relative Policy Optimization) verwendet, der, um die Stabilität und Effizienz des Trainings zu gewährleisten, eine Euler-Maruyama-Schema zur Diskretisierung stochastischer Differentialgleichungen nutzt.
Eine innovative Top-k-Filterstrategie wurde implementiert, um Verzerrungen bei der Vorteilsbewertung (Advantage Estimation) zu mindern. Diese Strategie wählt die Top-k- und Bottom-k-Beispiele innerhalb einer Stichprobengruppe aus, um eine ausgewogene Verteilung von High- und Low-Reward-Kandidaten zu gewährleisten. Dies führt zu einer effizienteren und stabileren Optimierung des Modells.
Die Effektivität des SpatialScore-Modells wurde umfassend evaluiert:
Obwohl SpatialScore einen bedeutenden Fortschritt im räumlichen Verständnis von Bildgenerierungsmodellen darstellt, gibt es weiterhin Forschungsfelder. Insbesondere die Integration von räumlichem Verständnis mit zeitlicher Dynamik, wie sie in der Videogenerierung erforderlich ist, bleibt eine Herausforderung. Zukünftige Arbeiten könnten sich darauf konzentrieren, Reward-Modellierung zu erweitrieren, um auch die spatio-temporale Konsistenz in generierten Videos zu verbessern, was für Anwendungen in der Robotik und Simulation von großer Bedeutung wäre.
Die Einführung von SpatialScore und dem zugehörigen Dataset stellt einen wichtigen Meilenstein dar, um die Präzision und Zuverlässigkeit von KI-generierten Bildern zu erhöhen. Dies ist besonders für B2B-Anwendungen von Relevanz, wo die Qualität und Korrektheit der visuellen Inhalte direkten Einfluss auf Geschäftsprozesse und -ergebnisse haben.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen