Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Entwicklung künstlicher Intelligenz (KI) hat in den letzten Jahren beeindruckende Fortschritte erzielt, insbesondere im Bereich der Sprachmodelle (LLMs). Diese Modelle zeigen bemerkenswerte Fähigkeiten im logischen Denken und bei der Problemlösung in textbasierten Kontexten. Im Gegensatz dazu hinken grosse Vision-Language-Modelle (LVLMs) im visuellen Denken noch erheblich hinterher. Um diese Lücke zu schliessen und die Entwicklung robusterer multimodaler KI-Systeme voranzutreiben, wurde die synthetische Umgebung SPHINX vorgestellt.
Während LLMs bei Aufgaben wie der Lösung mathematischer Probleme oder komplexer logischer Rätsel auf Spitzenniveau agieren, stehen LVLMs vor einer komplexeren Herausforderung: Sie müssen visuelle Eingaben nicht nur interpretieren, sondern diese auch nahtlos mit Sprachinformationen integrieren, um kohärente Schlussfolgerungsketten zu bilden. Oft scheitern sie an Aufgaben, die für Menschen trivial erscheinen. Bisherige Benchmarks konzentrierten sich häufig stärker auf die Wahrnehmung als auf das eigentliche Denken, was den Fortschritt in diesem Bereich einschränkte.
SPHINX ist ein modular aufgebautes Framework, das visuelle Denkaufgaben prozedural generiert. Das zentrale Konzept besteht darin, das Erscheinungsbild von der Regelstruktur zu entkoppeln. Dies geschieht durch drei zusammensetzbare Module:
Ein Schlüsselprinzip bei der Aufgabenformulierung ist, dass die Fragen für einen Menschen direkt aus dem Bild visuell beantwortbar sein sollten, ohne dass detailliertes "Papier-und-Bleistift"-Denken erforderlich ist.
SPHINX deckt 25 verschiedene Aufgabentypen in fünf breiten Kategorien ab:
Für den SPHINX-Benchmark wurden 2.500 Fragen (100 pro Aufgabentyp) generiert. Es wurden drei proprietäre Varianten von GPT-5 (regulär, Mini, Nano) sowie neun Open-Source Vision-Language-Modelle evaluiert. Die Ergebnisse zeigen, dass selbst das leistungsfähigste GPT-5 nur eine durchschnittliche Genauigkeit von 51,1 % erreichte, was 24,3 % unter der menschlichen Leistung liegt. Open-Source-Modelle zeigten mit einer maximalen Genauigkeit von 32,2 % (Qwen2.5-VL-32B) noch geringere Werte.
Eine detaillierte Analyse der menschlichen Leistung zeigte, dass die Vertrautheit mit visuellen Denkaufgaben einen starken Einfluss auf die Genauigkeit hat. Aufgaben, die mentale Rotation, mehrschrittiges räumliches Denken oder eine feingranulare Symmetrieklassifikation erforderten, erwiesen sich selbst für Menschen als herausfordernd. Die niedrigste menschliche Genauigkeit wurde bei der Aufgabe "Fries-Gruppen: Odd-one-out" beobachtet (48,4 %).
GPT-5 zeigte die grössten Defizite bei kachelbasierten Aufgaben wie "Tiles Line Length" oder "Tiles Recoloring", die Menschen als relativ intuitiv empfinden. Hingegen übertraf GPT-5 die menschliche Leistung bei der Aufgabe "Shape Counting" und zeigte vergleichbare Ergebnisse bei zwei kartenbasierten Aufgaben ("Pie Chart", "Chart Comparison").
Ein zentraler Aspekt der Studie war die Anwendung von Reinforcement Learning mit überprüfbaren Belohnungen (RLVR). Modelle, die mit RLVR auf einem separaten Trainingsset von SPHINX trainiert wurden, zeigten konsistente und substanzielle Verbesserungen bei den "in-distribution"-Aufgaben. Diese Leistungssteigerungen übertrugen sich auch auf die "held-out" (OOD)-Aufgaben, wenn auch mit grösseren Schwankungen zwischen den Aufgabentypen.
Interessanterweise führten RLVR-trainierte Modelle durchweg zu kürzeren Antworten, was möglicherweise durch die während des Trainings erzwungene maximale Antwortlänge beeinflusst wurde.
Obwohl SPHINX eine umfangreiche synthetische Umgebung bietet, konzentriert sich die aktuelle Studie auf eine Teilmenge von Aufgabentypen. Zukünftige Arbeiten könnten die Vielfalt der Aufgaben erweitern und visuell komplexere oder verrauschtere Eingaben integrieren, um realitätsnähere Bedingungen abzubilden.
Eine weitere Einschränkung des RLVR-Ansatzes ist, dass die Genauigkeit selbst nach dem Training unter 50 % bleibt. Dies deutet darauf hin, dass viele SPHINX-Aufgaben für aktuelle LVLMs noch immer schwierig sind. Geringe Genauigkeit kann während des RL-Trainings zu spärlichen Belohnungen führen, wodurch Ziellösungen effektiv unerreichbar bleiben. Eine mögliche Lösung könnte die Kombination von RLVR mit überwachtem Fine-Tuning auf von stärkeren Lehrermodellen generierten Schlussfolgerungsspuren sein, um die Qualität und Dichte der Lernsignale zu verbessern.
Darüber hinaus könnten lehrplanbasierte Strategien, die die Aufgabenschwierigkeit explizit berücksichtigen, die Generalisierung weiter verbessern. Es ist auch wichtig, die "Erratbarkeit" von Multiple-Choice-Formaten während des RL zu reduzieren, um sicherzustellen, dass Verbesserungen echtes Denken widerspiegeln und nicht die Ausnutzung von Abkürzungen.
SPHINX stellt einen wichtigen Schritt zur systematischen Bewertung und Verbesserung der visuellen Wahrnehmungs- und Denkfähigkeiten von KI-Modellen dar. Die Ergebnisse zeigen, dass trotz der beeindruckenden Fortschritte bei textbasierten LLMs, grosse Vision-Language-Modelle noch erhebliche Herausforderungen im visuellen Bereich bewältigen müssen. Die Anwendung von Reinforcement Learning mit überprüfbaren Belohnungen bietet einen vielversprechenden Weg, um diese Fähigkeiten zu verbessern und die Generalisierungsfähigkeit auf externe Benchmarks zu erweitern. Die fortlaufende Entwicklung von SPHINX und die Integration fortschrittlicherer RL-Paradigmen werden entscheidend sein, um die multimodalen Denkfähigkeiten von KI weiter voranzutreiben und die Lücke zur menschlichen Kognition zu verringern.
Bibliography - Alam, M. T., Aggarwal, S., Chae, J. Y., & Rastogi, N. (2025). SPHINX: A Synthetic Environment for Visual Perception and Reasoning. arXiv preprint arXiv:2511.20814. - Hugging Face. (2025, November 27). SPHINX: A Synthetic Environment for Visual Perception and Reasoning. Retrieved from https://huggingface.co/papers/2511.20814 - OpenReview. (2025, November 12). Sphinx: Visual Perception and Reasoning Gym. Retrieved from https://openreview.net/forum?id=BjlmBIKQee - VisualSphinx. (2025, May 12). VisualSphinx - GitHub. Retrieved from https://github.com/VisualSphinx/VisualSphinx - Wu, Q., Zhao, H., Saxon, M., Bui, T., Wang, W. Y., Zhang, Y., & Chang, S. (2025). VSP: Diagnosing the Dual Challenges of Perception and Reasoning in Spatial Planning Tasks for MLLMs. ICCV 2025. - Feng, Y., Xu, Z., Jiang, F., Li, Y., Ramasubramanian, B., Niu, L., Lin, B. Y., & Poovendran, R. (2025). VisualSphinx: Large-Scale Synthetic Vision Logic Puzzles for RL. arXiv preprint arXiv:2505.23977.Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen