Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Weiterentwicklung von Künstlicher Intelligenz (KI) steht kontinuierlich im Fokus der Forschung. Insbesondere im Bereich der Vision-Language Models (VLMs), die Text- und Bildinformationen verknüpfen, stellt die Abhängigkeit von umfangreichen, manuell annotierten Datensätzen eine Herausforderung dar. Diese Datensätze sind nicht nur kostspielig und zeitaufwendig in der Erstellung, sondern begrenzen auch die Skalierbarkeit und die Fähigkeit der Modelle, sich über menschliche Vorgaben hinaus zu entwickeln. Ein neuer Ansatz, der diese Beschränkungen überwinden soll, ist das VisPlay-Framework, welches sich selbst entwickelnde VLMs aus unbeschrifteten Bilddaten ermöglicht.
Das VisPlay-Framework stellt einen Fortschritt dar, indem es VLMs befähigt, ihre Denkfähigkeiten aus unbeschrifteten Bilddaten autonom zu verbessern. Es basiert auf einem sich selbst entwickelnden Reinforcement Learning (RL)-Ansatz, der nicht auf teure, menschlich annotierte Labels oder aufgabenspezifische Heuristiken zur Belohnungsdefinition angewiesen ist. Dies adressiert ein zentrales Problem bestehender RL-Methoden und eröffnet einen skalierbaren Weg zu sich selbst entwickelnder multimodaler Intelligenz.
Im Kern von VisPlay agiert ein einziges Basis-VLM in zwei interaktiven Rollen:
Diese beiden Rollen werden gemeinsam mit der Group Relative Policy Optimization (GRPO) trainiert. GRPO integriert Belohnungen für Diversität und Schwierigkeit, um die Komplexität der generierten Fragen mit der Qualität der Silver Answers abzugleichen. Dieser Ansatz ermöglicht es dem VLM, seine visuellen Denkfähigkeiten durch die iterative Ko-Verbesserung von Questioner und Reasoner schrittweise zu steigern.
VisPlay operiert als ein geschlossenes Kreislaufsystem, das keine menschlich annotierten Daten benötigt. Der Prozess beginnt damit, dass der Questioner ein Bild als Eingabe erhält und eine visuelle Abfrage generiert. Anschließend empfängt der Reasoner sowohl das Bild als auch die generierte Abfrage, um eine Antwort zu erstellen. Beide Agenten, Questioner und Reasoner, werden von einem gemeinsamen vortrainierten Backbone initialisiert und entwickeln sich durch iterative Interaktionen gemeinsam weiter: Der Questioner lernt, anspruchsvollere Fragen zu generieren, während der Reasoner trainiert wird, diese zunehmend schwierigeren Fragen zu lösen.
Der Questioner wird als autoregressive Policy optimiert. Basierend auf einem Eingabebild generiert er eine Gruppe von Fragen. Die Belohnungen für diese Fragen setzen sich aus mehreren Komponenten zusammen:
Die finale Belohnung für den Questioner integriert diese Signale, um anspruchsvolle, aber nicht redundante Fragen zu fördern und gleichzeitig falsch formatierte Ausgaben zu filtern.
Das Training des Multimodalen Reasoners baut auf den Fortschritten des Image-Conditioned Questioners auf. In jeder Iteration generiert der Questioner herausfordernde Beispiele, die als Trainingsziele dienen. Der Reasoner lernt dann von diesen automatisch kuratierten Beispielen und verbessert seine visuellen Denkfähigkeiten ohne externe Supervision.
Ein kuratierter Datensatz wird erstellt, indem der Questioner Kandidatenfragen generiert und der Reasoner Pseudo-Labels und Konfidenzwerte liefert. Nur Fragen mit moderater Konfidenz (z.B. zwischen 0,25 und 0,75) werden für das Training des Reasoners ausgewählt. Dies stellt sicher, dass der Reasoner von informativen Beispielen lernt, die weder trivial noch zu instabil sind. Für jede Frage im kuratierten Datensatz generiert der Reasoner eine Gruppe von Antworten, die binär belohnt werden, je nachdem, ob sie dem Pseudo-Label entsprechen. Diese Belohnungen werden dann zur Aktualisierung des Reasoners mittels GRPO verwendet.
Die Wirksamkeit von VisPlay wurde anhand von drei aktuellen VLMs (Qwen2.5-VL-3B-Instruct, Qwen2.5-VL-7B-Instruct und MiMo-VL-7B-SFT) und einer Vielzahl von Benchmarks aus den Bereichen allgemeines visuelles Verständnis, multimodales mathematisches Denken und visuelle Halluzinationserkennung evaluiert.
Die Ergebnisse zeigen eine konsistente Verbesserung der Gesamtleistung über alle getesteten Modelle hinweg. Beispielsweise steigerte das Qwen2.5-VL-3B-Modell seinen durchschnittlichen Score von 30,61 auf 47,27 nach drei Iterationen. Ähnliche Aufwärtstrends wurden bei den 7B-Modellen beobachtet, was die robuste Generalisierungsfähigkeit und Skalierbarkeit des Frameworks demonstriert.
VisPlay führte zu Leistungssteigerungen in allen drei Hauptaufgabenbereichen. Insbesondere die Halluzinationserkennung verbesserte sich bei Qwen2.5-VL-3B von 32,81 auf 94,95, was auf eine signifikante Verbesserung der faktischen Verankerung hindeutet. Auch mathematische Denkaufgaben und das allgemeine visuelle Verständnis zeigten konsistente Verbesserungen, ohne die Genauigkeit bei anderen Aufgaben zu beeinträchtigen.
Die iterative Ko-Evolution zwischen Questioner und Reasoner ist ein zentraler Erfolgsfaktor. Während der Questioner zunehmend vielfältigere und anspruchsvollere Anfragen generiert, lernt der Reasoner, diese komplexeren Denkschritte zu bewältigen. Dieser sich selbst verstärkende Kreislauf führt zu einer kontinuierlichen Verbesserung der Denkqualität, Generalisierung und Robustheit der Modelle.
Ein Vergleich von VisPlay-Modellen mit solchen, die mittels Standard-GRPO auf menschlich kuratierten Daten trainiert wurden, zeigt, dass VisPlay eine vergleichbare durchschnittliche Genauigkeit erreicht. Obwohl es leichte Unterschiede in einzelnen Aufgabenkategorien gibt, belegt dies, dass der sich selbst entwickelnde Prozess Trainingssignale von ausreichender Qualität erzeugen kann, um die Fähigkeiten von Basis-VLMs zu verbessern. Dies unterstreicht das Potenzial von VisPlay als effektive und skalierbare Alternative, insbesondere in Szenarien, in denen menschliche Annotationen begrenzt oder nicht verfügbar sind.
Fallstudien zur Entwicklung der Fragestellungsschwierigkeit zeigen, dass die vom Questioner generierten Fragen über die Iterationen hinweg systematisch komplexer werden. Während die erste Iteration direkte Beobachtungsfragen beinhaltet, erfordern spätere Iterationen relationale, vergleichende und mehrschrittige Denkprozesse, einschließlich präziser Lokalisierung und kausaler Beziehungen. Diese Progression liefert immer anspruchsvollere Trainingssignale, die das Modell zur Anpassung und Verbesserung seiner Denkfähigkeiten anregen.
Trotz der vielversprechenden Ergebnisse weist die aktuelle Forschung auch Grenzen auf. Die Experimente wurden primär mit den Modellfamilien Qwen2.5-VL und MiMo-VL durchgeführt. Die Skalierbarkeit und Effektivität von VisPlay bei deutlich größeren VLMs (z.B. mit ≥ 10 Milliarden Parametern) bleibt eine offene Frage. Zudem fehlt dem Framework eine definitive Verifizierungsmethode für die selbst generierten Daten. Robuste, automatisierte Methoden zur Überprüfung der Datentreue und zur Vermeidung von Fehlerakkumulation sind wichtige Bereiche für zukünftige Untersuchungen.
VisPlay stellt einen wichtigen Schritt in Richtung autonom lernender KI-Systeme dar. Durch die Ermöglichung einer sich selbst entwickelnden Verbesserung von Vision-Language Models aus unbeschrifteten Bilddaten bietet es einen skalierbaren und kosteneffizienten Ansatz. Die iterative Ko-Evolution von Questioner und Reasoner, gestützt durch GRPO, führt zu konsistenten Leistungssteigerungen in Bezug auf Denkfähigkeit, Generalisierung und Halluzinationsreduktion. Dieses Framework eröffnet neue Möglichkeiten für reichhaltigere multimodale Interaktionen und domänenübergreifende Adaptionen und weist den Weg zu intelligenten Systemen, die sich kontinuierlich und autonom weiterentwickeln können.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen