Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Forschung im Bereich der künstlichen Intelligenz schreitet stetig voran, und neue Paradigmen definieren die Grenzen dessen, was maschinelles Lernen leisten kann, neu. Eine aktuelle Entwicklung, die für Unternehmen im KI-Sektor von besonderem Interesse ist, ist die Einführung von DiffThinker. Dieses Framework stellt einen Paradigmenwechsel im multimodalen Reasoning dar, indem es den Fokus von textzentrierten Ansätzen auf eine native Bild-zu-Bild-Generierung verlagert. Die potenziellen Auswirkungen auf die Effizienz, Präzision und Skalierbarkeit von KI-Anwendungen sind erheblich und verdienen eine detaillierte Betrachtung.
Traditionelle Multimodale Große Sprachmodelle (MLLMs) haben in den letzten Jahren beeindruckende Fortschritte im multimodalen Verständnis erzielt. Ihre Reasoning-Prozesse basieren jedoch meist auf textlichen Ketten von Gedanken (Chain-of-Thought, CoT). Dies führt bei komplexen, langfristigen und stark visuell geprägten Aufgaben oft zu suboptimalen Leistungen. Die Notwendigkeit, visuelle Informationen in textliche Beschreibungen zu übersetzen und dann wieder zurück, kann zu Verlusten an Präzision und logischer Konsistenz führen.
DiffThinker, entwickelt von einem Team um Zefeng He, schlägt eine grundlegend andere Vorgehensweise vor. Es reformuliert multimodales Reasoning als eine native generative Bild-zu-Bild-Aufgabe. Anstatt symbolische Lösungen über Text zu erzeugen, generiert DiffThinker direkt visuelle Lösungen. Dieser Ansatz nutzt die inhärenten Stärken von Diffusionsmodellen, um logische Konsistenz und räumliche Präzision in vision-zentrierten Aufgaben zu verbessern.
DiffThinker basiert auf dem Prinzip, dass die Lösung eines Problems, das visuelle Eingaben beinhaltet, am effektivsten direkt im visuellen Raum gefunden werden kann. Anstatt einen visuellen Input (z.B. ein Bild) und eine textliche Anweisung in eine textliche Reasoning-Kette umzuwandeln, die dann eine symbolische Lösung liefert, generiert DiffThinker direkt ein Lösungsbild. Dieses Lösungsbild kapselt die gesamte Reasoning-Trajektorie und die endgültige Lösung visuell.
Um eine faire Vergleichbarkeit mit symbolischen Ground-Truth-Daten zu gewährleisten, wird eine Parsing-Funktion eingesetzt, die das generierte Lösungsbild in den symbolischen Raum zurückführt. Dies ermöglicht eine objektive Bewertung der Ergebnisse.
Die technische Grundlage von DiffThinker ist das Qwen-Image-Edit-Modell, das auf einem Multimodalen Diffusions-Transformer (MMDiT) aufbaut. Der zentrale theoretische Rahmen ist das sogenannte Flow Matching. Dieses Verfahren approximiert ein Geschwindigkeitsfeld, das Rauschen in die gewünschte Datenverteilung transformiert. Dies gewährleistet stabile Lerndynamiken durch gewöhnliche Differentialgleichungen (ODEs).
Während des Trainings wird ein Rauschvektor mit den visuellen und textlichen Eingaben konditioniert. Durch lineares Interpolieren zwischen Rauschen und den tatsächlichen Daten wird ein Zwischenlatent generiert. Das MMDiT-basierte Geschwindigkeitsfeld wird dann trainiert, die Zielgeschwindigkeit vorherzusagen, die das Rauschen in die Daten überführt.
In der Inferenzphase löst DiffThinker die durch das gelernte Geschwindigkeitsfeld definierten ODEs. Beginnend mit initialem Rauschen integriert das Modell den Fluss numerisch, um das Lösungslatent wiederherzustellen, welches dann in den Pixelraum dekodiert wird, um die visuelle Lösung zu erhalten.
Die Entwickler von DiffThinker identifizieren vier wesentliche Eigenschaften, die dieses neue Paradigma auszeichnen:
DiffThinker zeigt eine hohe Effizienz sowohl im Training als auch in der Inferenz. Es übertrifft RL-basierte MLLMs in Bezug auf die Genauigkeit und erreicht vergleichbare oder bessere Inferenzzeiten als etablierte MLLMs. Dies ist insbesondere für B2B-Anwendungen relevant, bei denen Geschwindigkeit und Ressourcenverbrauch kritische Faktoren sind.
Im Gegensatz zu MLLMs, deren Inferenzkosten aufgrund der variablen Länge von Chain-of-Thought-Prozessen unvorhersehbar sein können, bietet DiffThinker eine kontrollierbare und stabile Inferenzkostenstruktur. Durch die Formulierung von Reasoning als einen Generierungsprozess mit einer festen Anzahl von Schritten (z.B. 20 Inferenzschritte) wird ein deterministisches Rechenbudget gewährleistet. Dies verhindert Probleme wie vorzeitige Abbruche oder redundante Ausgaben.
Ein herausragendes Merkmal von DiffThinker ist seine Fähigkeit zum nativen parallelen Reasoning. In den frühen Phasen des Generierungsprozesses erforscht das Modell gleichzeitig mehrere potenzielle Lösungsansätze. Während des weiteren Verlaufs werden ungültige Pfade sukzessive eliminiert und der Fokus auf die plausibelste Lösung konsolidiert. Dies steht im Gegensatz zu sequenziellen MLLM-Ansätzen, die oft explizite Rückschritte oder Reflexionen erfordern, um Fehler zu korrigieren.
DiffThinker kann auch als leistungsstarker visueller Reasoning-Backend in Kollaboration mit MLLMs agieren. In einem solchen Szenario generiert DiffThinker mehrere Kandidaten-Lösungsbilder, die dann von einem MLLM anhand der ursprünglichen Problembeschränkungen überprüft werden. Diese Synergie führt zu einer überlegenen Genauigkeit, die die Leistung jedes Modells allein übertrifft. DiffThinker kompensiert die begrenzte visuelle Vorstellungskraft von MLLMs, während MLLMs ihre reflexiven Fähigkeiten zur Fehlerfilterung nutzen.
DiffThinker wurde in umfangreichen Experimenten über sieben Aufgaben in vier Domänen evaluiert:
Die Ergebnisse zeigen, dass DiffThinker führende MLLMs, darunter GPT-5 und Gemini-3-Flash, sowie feinabgestimmte Qwen3-VL-32B-Baselines, signifikant übertrifft. Die Leistungssteigerungen betragen bis zu 314,2% gegenüber GPT-5 und 111,6% gegenüber Gemini-3-Flash. Insbesondere bei Aufgaben mit zunehmender Komplexität behält DiffThinker eine hohe Genauigkeit bei, während die Leistung von MLLMs rapide abnimmt.
Zusätzliche Ablationsstudien untersuchten den Einfluss verschiedener Parameter auf die Leistung von DiffThinker:
Trotz der beeindruckenden Ergebnisse hat DiffThinker, wie jedes neue Modell, auch Grenzen. Die Generalisierungsfähigkeit bei Out-of-Distribution-Szenarien ist noch durch die Repräsentationskraft der zugrunde liegenden generativen Modelle begrenzt. Zukünftige Forschung könnte sich auf die Entwicklung robusterer multimodaler generativer Grundlagenmodelle konzentrieren, die speziell für Reasoning optimiert sind.
Des Weiteren konzentriert sich diese Arbeit primär auf vision-zentrierte Herausforderungen. MLLMs behalten weiterhin Vorteile in textzentrierten Domänen, wie komplexen mathematischen Problemen. Eine vielversprechende zukünftige Richtung liegt in der tieferen Integration und Synergie zwischen generativen Reasonern wie DiffThinker und MLLMs, um das Spektrum multimodaler Reasoning-Fähigkeiten zu erweitern.
Die Untersuchung von DiffThinker-Video zeigte, dass videobasierte Reasoning-Ansätze zwar inhärente Fähigkeiten für multimodales Reasoning besitzen, derzeit jedoch mit höheren Rechenkosten und geringerer Genauigkeit verbunden sind als bildbasierte Ansätze. Effizienzverbesserungen in Videogenerierungsmodellen sind hierfür essenziell.
Für Unternehmen im Bereich der KI bietet DiffThinker eine vielversprechende neue Richtung. Die Fähigkeit, komplexe visuelle Reasoning-Aufgaben mit höherer Präzision, Effizienz und Kontrollierbarkeit zu lösen, eröffnet neue Möglichkeiten in Bereichen wie:
Die Integration von DiffThinker als visueller Reasoning-Backend in bestehende MLLM-basierte Systeme könnte die Leistungsfähigkeit von All-in-One-Content-Tools wie Mindverse erheblich erweitern. Dies ermöglicht es, noch komplexere und anspruchsvollere Aufgaben für Unternehmen zu lösen und somit einen klaren Wettbewerbsvorteil zu schaffen.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen