SPHINX: Eine neue synthetische Umgebung zur Bewertung visueller Wahrnehmung und Denkfähigkeiten von KI-Modellen

Kategorien:

No items found.

Freigegeben:

November 28, 2025

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

SPHINX ist eine neue, synthetische Umgebung zur Bewertung visueller Wahrnehmungs- und Denkfähigkeiten von KI-Modellen.
Die Umgebung generiert prozedural 25 verschiedene Aufgabentypen, darunter Symmetrieerkennung, geometrische Transformationen und räumliches Denken.
Aktuelle große Vision-Language-Modelle (LVLMs), einschliesslich GPT-5, erreichen auf SPHINX lediglich eine Genauigkeit von 51,1 %, was deutlich unter der menschlichen Leistung liegt.
Reinforcement Learning mit überprüfbaren Belohnungen (RLVR) führt zu signifikanten Verbesserungen der Modellgenauigkeit und Generalisierungsfähigkeit.
Das Projekt zielt darauf ab, die Lücke zwischen der Leistungsfähigkeit von LLMs und LVLMs im Bereich des visuellen Denkens zu schliessen.

SPHINX: Eine synthetische Umgebung zur Förderung visueller Kognition und Schlussfolgerung in KI

Die Entwicklung künstlicher Intelligenz (KI) hat in den letzten Jahren beeindruckende Fortschritte erzielt, insbesondere im Bereich der Sprachmodelle (LLMs). Diese Modelle zeigen bemerkenswerte Fähigkeiten im logischen Denken und bei der Problemlösung in textbasierten Kontexten. Im Gegensatz dazu hinken grosse Vision-Language-Modelle (LVLMs) im visuellen Denken noch erheblich hinterher. Um diese Lücke zu schliessen und die Entwicklung robusterer multimodaler KI-Systeme voranzutreiben, wurde die synthetische Umgebung SPHINX vorgestellt.

Die Herausforderung des visuellen Denkens

Während LLMs bei Aufgaben wie der Lösung mathematischer Probleme oder komplexer logischer Rätsel auf Spitzenniveau agieren, stehen LVLMs vor einer komplexeren Herausforderung: Sie müssen visuelle Eingaben nicht nur interpretieren, sondern diese auch nahtlos mit Sprachinformationen integrieren, um kohärente Schlussfolgerungsketten zu bilden. Oft scheitern sie an Aufgaben, die für Menschen trivial erscheinen. Bisherige Benchmarks konzentrierten sich häufig stärker auf die Wahrnehmung als auf das eigentliche Denken, was den Fortschritt in diesem Bereich einschränkte.

SPHINX: Ein modularer Ansatz zur Aufgabenstellung

SPHINX ist ein modular aufgebautes Framework, das visuelle Denkaufgaben prozedural generiert. Das zentrale Konzept besteht darin, das Erscheinungsbild von der Regelstruktur zu entkoppeln. Dies geschieht durch drei zusammensetzbare Module:

Motive: Parametrisierte Renderer, die RGBA-Kacheln aus Attributen wie Art, Grösse, Anzahl, Winkel und Strich erzeugen. Dazu gehören Punkte, Ringe, Polygone, Sterne, Halbmonde, Glyphen und ikonografische Primitive.
Kachelungen (Tilings): Geometrische Leinwände, die Zelllayouts und Adjazenz definieren (quadratisch, dreieckig, sechseckig, rautenförmig und Kreisvarianten). Sie ermöglichen die systematische Erkundung verschiedener geometrischer Strukturen.
Aufgaben: Diese verknüpfen Motive und Kachelregionen mit klar definierten Fragen, oft mit Multiple-Choice-Optionen. Jede Aufgabe generiert ein zusammengesetztes Bild, eine natürliche Sprachaufforderung und eine einzigartige, korrekte Antwort sowie gegebenenfalls Distraktoren.

Ein Schlüsselprinzip bei der Aufgabenformulierung ist, dass die Fragen für einen Menschen direkt aus dem Bild visuell beantwortbar sein sollten, ohne dass detailliertes "Papier-und-Bleistift"-Denken erforderlich ist.

Fünf Hauptkategorien von Aufgaben

SPHINX deckt 25 verschiedene Aufgabentypen in fünf breiten Kategorien ab:

Geometrisches Denken: Aufgaben, die räumliche Beziehungen und geometrische Eigenschaften wie Fläche, Umfang und relative Grösse untersuchen. Beispiele sind das Zählen von Formen in Bezug auf Referenzformen oder das Sortieren von Formen nach Metriken.
Zählen: Diese Aufgaben konzentrieren sich auf das Zählen diskreter Elemente oder das Messen linearer Merkmale in visuellen Szenen, ähnlich den Aufgaben in frühen diagnostischen Benchmarks. Dazu gehören Venn-Diagramme oder das Zählen von Sub-Formen in einer komplexen Figur.
Symmetrie & Mustererkennung: Aufgaben, die das Erkennen von Symmetrie, Periodizität oder "Odd-one-out"-Mustern erfordern. Beispiele sind die Klassifizierung von Spiegelsymmetrien oder das Identifizieren von Mustern in Fries- und Tapetengruppen.
Sequenz- & Transformationsdenken: Diese Kategorie umfasst Aufgaben, die zeitliche Abfolgen, Rotationsprogressionen oder die Inferenz von Transformationen beinhalten, wie das Vorhersagen fehlender Elemente in Drehsequenzen.
Topologisches & Graphen-Denken: Aufgaben, die das Denken über Konnektivität, Pfade und Zusammensetzung auf Kachelungen oder Gittern erfordern, wie die Berechnung von Flächen und Umfängen oder das Finden des kürzesten Pfades.

Benchmark-Ergebnisse und Leistungsanalyse

Für den SPHINX-Benchmark wurden 2.500 Fragen (100 pro Aufgabentyp) generiert. Es wurden drei proprietäre Varianten von GPT-5 (regulär, Mini, Nano) sowie neun Open-Source Vision-Language-Modelle evaluiert. Die Ergebnisse zeigen, dass selbst das leistungsfähigste GPT-5 nur eine durchschnittliche Genauigkeit von 51,1 % erreichte, was 24,3 % unter der menschlichen Leistung liegt. Open-Source-Modelle zeigten mit einer maximalen Genauigkeit von 32,2 % (Qwen2.5-VL-32B) noch geringere Werte.

Menschliche vs. KI-Leistung

Eine detaillierte Analyse der menschlichen Leistung zeigte, dass die Vertrautheit mit visuellen Denkaufgaben einen starken Einfluss auf die Genauigkeit hat. Aufgaben, die mentale Rotation, mehrschrittiges räumliches Denken oder eine feingranulare Symmetrieklassifikation erforderten, erwiesen sich selbst für Menschen als herausfordernd. Die niedrigste menschliche Genauigkeit wurde bei der Aufgabe "Fries-Gruppen: Odd-one-out" beobachtet (48,4 %).

GPT-5 zeigte die grössten Defizite bei kachelbasierten Aufgaben wie "Tiles Line Length" oder "Tiles Recoloring", die Menschen als relativ intuitiv empfinden. Hingegen übertraf GPT-5 die menschliche Leistung bei der Aufgabe "Shape Counting" und zeigte vergleichbare Ergebnisse bei zwei kartenbasierten Aufgaben ("Pie Chart", "Chart Comparison").

Auswirkungen des Reinforcement Learnings

Ein zentraler Aspekt der Studie war die Anwendung von Reinforcement Learning mit überprüfbaren Belohnungen (RLVR). Modelle, die mit RLVR auf einem separaten Trainingsset von SPHINX trainiert wurden, zeigten konsistente und substanzielle Verbesserungen bei den "in-distribution"-Aufgaben. Diese Leistungssteigerungen übertrugen sich auch auf die "held-out" (OOD)-Aufgaben, wenn auch mit grösseren Schwankungen zwischen den Aufgabentypen.

Interessanterweise führten RLVR-trainierte Modelle durchweg zu kürzeren Antworten, was möglicherweise durch die während des Trainings erzwungene maximale Antwortlänge beeinflusst wurde.

Grenzen und zukünftige Perspektiven

Obwohl SPHINX eine umfangreiche synthetische Umgebung bietet, konzentriert sich die aktuelle Studie auf eine Teilmenge von Aufgabentypen. Zukünftige Arbeiten könnten die Vielfalt der Aufgaben erweitern und visuell komplexere oder verrauschtere Eingaben integrieren, um realitätsnähere Bedingungen abzubilden.

Eine weitere Einschränkung des RLVR-Ansatzes ist, dass die Genauigkeit selbst nach dem Training unter 50 % bleibt. Dies deutet darauf hin, dass viele SPHINX-Aufgaben für aktuelle LVLMs noch immer schwierig sind. Geringe Genauigkeit kann während des RL-Trainings zu spärlichen Belohnungen führen, wodurch Ziellösungen effektiv unerreichbar bleiben. Eine mögliche Lösung könnte die Kombination von RLVR mit überwachtem Fine-Tuning auf von stärkeren Lehrermodellen generierten Schlussfolgerungsspuren sein, um die Qualität und Dichte der Lernsignale zu verbessern.

Darüber hinaus könnten lehrplanbasierte Strategien, die die Aufgabenschwierigkeit explizit berücksichtigen, die Generalisierung weiter verbessern. Es ist auch wichtig, die "Erratbarkeit" von Multiple-Choice-Formaten während des RL zu reduzieren, um sicherzustellen, dass Verbesserungen echtes Denken widerspiegeln und nicht die Ausnutzung von Abkürzungen.

Fazit

SPHINX stellt einen wichtigen Schritt zur systematischen Bewertung und Verbesserung der visuellen Wahrnehmungs- und Denkfähigkeiten von KI-Modellen dar. Die Ergebnisse zeigen, dass trotz der beeindruckenden Fortschritte bei textbasierten LLMs, grosse Vision-Language-Modelle noch erhebliche Herausforderungen im visuellen Bereich bewältigen müssen. Die Anwendung von Reinforcement Learning mit überprüfbaren Belohnungen bietet einen vielversprechenden Weg, um diese Fähigkeiten zu verbessern und die Generalisierungsfähigkeit auf externe Benchmarks zu erweitern. Die fortlaufende Entwicklung von SPHINX und die Integration fortschrittlicherer RL-Paradigmen werden entscheidend sein, um die multimodalen Denkfähigkeiten von KI weiter voranzutreiben und die Lücke zur menschlichen Kognition zu verringern.

Bibliography - Alam, M. T., Aggarwal, S., Chae, J. Y., & Rastogi, N. (2025). SPHINX: A Synthetic Environment for Visual Perception and Reasoning. arXiv preprint arXiv:2511.20814. - Hugging Face. (2025, November 27). SPHINX: A Synthetic Environment for Visual Perception and Reasoning. Retrieved from https://huggingface.co/papers/2511.20814 - OpenReview. (2025, November 12). Sphinx: Visual Perception and Reasoning Gym. Retrieved from https://openreview.net/forum?id=BjlmBIKQee - VisualSphinx. (2025, May 12). VisualSphinx - GitHub. Retrieved from https://github.com/VisualSphinx/VisualSphinx - Wu, Q., Zhao, H., Saxon, M., Bui, T., Wang, W. Y., Zhang, Y., & Chang, S. (2025). VSP: Diagnosing the Dual Challenges of Perception and Reasoning in Spatial Planning Tasks for MLLMs. ICCV 2025. - Feng, Y., Xu, Z., Jiang, F., Li, Y., Ramasubramanian, B., Niu, L., Lin, B. Y., & Poovendran, R. (2025). VisualSphinx: Large-Scale Synthetic Vision Logic Puzzles for RL. arXiv preprint arXiv:2505.23977.