Neue Ansätze zur Evaluierung der räumlichen Intelligenz von KI in Sportumgebungen

Kategorien:

No items found.

Freigegeben:

March 11, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Die räumliche Intelligenz von Vision-Language Models (VLMs) ist ein entscheidender Faktor für Fortschritte in der KI.
Sportarten bieten ein dynamisches Testfeld für diese Fähigkeiten, insbesondere durch komplexe Bewegungsabläufe und Interaktionen.
Das neue Dataset CourtSI ist das erste grosse Dataset, das speziell auf Sportszenarien zugeschnitten ist und über eine Million Frage-Antwort-Paare umfasst.
CourtSI-Bench, ein hochwertiger Benchmark, zeigt deutliche Leistungslücken zwischen menschlicher Intelligenz und aktuellen VLMs auf.
Feinabstimmung von Modellen mit CourtSI kann die Genauigkeit erheblich verbessern und die Fähigkeit zur generellen räumlichen Kommentargenerierung erweitern.
Die Forschung unterstreicht die Notwendigkeit, VLMs für komplexere räumliche Aufgaben in dynamischen Umgebungen weiterzuentwickeln.

Einführung: Sport als Prüfstand für räumliche Intelligenz in der KI

Die Fähigkeit von Künstlicher Intelligenz, räumliche Beziehungen und dynamische Interaktionen in komplexen Umgebungen zu verstehen, ist ein zentrales Forschungsfeld. Insbesondere für Vision-Language Models (VLMs), die visuelle und sprachliche Informationen verknüpfen, stellt die räumliche Intelligenz eine grosse Herausforderung dar. Sportarten, mit ihren hochintensiven menschlichen Bewegungen und dynamischen Objektinteraktionen, bieten hierfür ein ideales Testfeld. Eine aktuelle Veröffentlichung mit dem Titel "Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports" beleuchtet diesen Bereich und präsentiert neue Ansätze zur Evaluierung und Verbesserung von VLMs in Sportszenarien.

CourtSI: Ein bahnbrechendes Dataset für räumliche Intelligenz im Sport

Um die räumliche Intelligenz von VLMs in Sportumgebungen systematisch zu untersuchen, wurde das erste grosse Dataset dieser Art, genannt CourtSI, entwickelt. Dieses Dataset enthält über eine Million Frage-Antwort-Paare, die eine umfassende Taxonomie abdecken. Dazu gehören:

Räumliches Zählen (Spatial Counting)
Distanzmessung (Distance Measurement)
Lokalisierung (Localization)
Relationale Schlussfolgerungen (Relational Reasoning)

Die Daten stammen aus repräsentativen Netzsportarten wie Badminton, Tennis und Tischtennis. Ein semi-automatisches Daten-Engine wurde eingesetzt, um Sportszenen unter Verwendung der Spielfeldgeometrie als metrische Anker zu rekonstruieren. Dies ermöglichte eine skalierbare Kuratierung von CourtSI und stellt eine robuste Grundlage für die Entwicklung und Bewertung von VLMs dar.

CourtSI-Bench: Ein präziser Benchmark zur Leistungsbewertung

Ergänzend zu CourtSI wurde CourtSI-Bench eingeführt, ein hochwertiger Evaluations-Benchmark mit 3.686 Frage-Antwort-Paaren, die einer strengen menschlichen Verifizierung unterzogen wurden. Auf diesem Benchmark wurden 25 proprietäre und Open-Source-VLMs getestet. Die Ergebnisse dieser Evaluation offenbaren eine deutliche Lücke zwischen der menschlichen und der KI-Leistung im Bereich der räumlichen Intelligenz. Dies deutet darauf hin, dass die bisherigen Benchmarks die Komplexität und die spezifischen Anforderungen von Sportszenarien nicht ausreichend abdecken konnten.

Die Analyse der VLM-Leistungen auf CourtSI-Bench zeigte, dass existierende Modelle Schwierigkeiten haben, ihre Fähigkeiten auf neue, aber ähnliche Sportszenarien zu generalisieren. Dies unterstreicht die Notwendigkeit, Modelle zu entwickeln, die ein tieferes Verständnis für dynamische räumliche Beziehungen und Interaktionen besitzen.

Verbesserung der VLM-Fähigkeiten durch Feinabstimmung

Ein vielversprechender Aspekt der Studie ist die Demonstration, dass die Feinabstimmung von Modellen auf CourtSI zu erheblichen Leistungssteigerungen führen kann. Beispielsweise konnte die Genauigkeit des Qwen3-VL-8B-Modells auf CourtSI-Bench um 23,5 Prozentpunkte verbessert werden. Das angepasste Modell zeigte zudem eine effektive Generalisierungsfähigkeit auf CourtSI-Ext, einem Evaluationsset, das auf einer ähnlichen, aber ungesehenen Sportart basiert.

Darüber hinaus wurden verbesserte Fähigkeiten zur raumbewussten Kommentargenerierung festgestellt. Dies ist ein wichtiger Schritt in Richtung realitätsnaher KI-Anwendungen, die nicht nur visuelle Informationen verarbeiten, sondern auch kontextbezogene und räumlich präzise Beschreibungen liefern können.

Herausforderungen und zukünftige Richtungen der räumlichen Intelligenz

Die Untersuchung macht deutlich, dass die räumliche Intelligenz von VLMs, insbesondere in dynamischen und komplexen Umgebungen wie dem Sport, noch erhebliche Entwicklungspotenziale aufweist. Bestehende Ansätze konzentrieren sich oft auf grundlegende räumliche Verhältnisse wie relative Positionen oder Objekterkennung. Neuere Benchmarks wie OmniSpatial erweitern diesen Fokus, indem sie dynamisches Denken, komplexe räumliche Logik, räumliche Interaktion und Perspektivübernahme berücksichtigen.

Ein weiterer Benchmark, iVISPAR, nutzt ein Schiebepuzzle-Szenario, um die Problemlösungsfähigkeiten von VLMs in 3D-Umgebungen zu testen. Auch hier zeigt sich, dass selbst fortschrittliche Modelle Schwierigkeiten mit komplexen Konfigurationen haben und menschlicher Leistung noch deutlich unterlegen sind, insbesondere bei der präzisen Lokalisierung von Objekten in 3D-Ansichten.

Die Fähigkeit zur Perspektivübernahme, also die Vorstellung, wie eine Szene aus einem anderen Blickwinkel aussieht, bleibt ebenfalls eine grosse Herausforderung für VLMs. Studien zeigen, dass Modelle überwiegend egozentrische Perspektiven analysieren und Schwierigkeiten haben, sich in andere Blickwinkel hineinzuversetzen.

Die Integration von 3D-Informationen und die Entwicklung von Modellen, die eine robustere interne Repräsentation von Raum und dynamischen Veränderungen aufbauen können, sind entscheidende Schritte für die Zukunft. Dies könnte durch Techniken wie PointGraph, das zusätzliche räumliche Informationen integriert, oder SpatialCoT, das räumliche Vorstellungskraft durch die Synthese neuer Ansichten verbessert, erreicht werden. Die Forschung in diesem Bereich zielt darauf ab, VLMs so zu befähigen, dass sie nicht nur visuelle Daten verarbeiten, sondern auch ein tiefes, menschliches Verständnis für räumliche Zusammenhänge entwickeln.

Fazit

Die Einführung von CourtSI und CourtSI-Bench stellt einen wichtigen Fortschritt in der Evaluierung der räumlichen Intelligenz von Vision-Language Models dar. Die Ergebnisse zeigen, dass Sportarten ein exzellentes Testfeld bieten, um die Grenzen aktueller KI-Modelle aufzuzeigen und neue Wege für deren Verbesserung zu ebnen. Obwohl bedeutende Fortschritte erzielt wurden, insbesondere durch Feinabstimmung und die Integration spezifischer räumlicher Informationen, bleibt eine erhebliche Lücke zwischen menschlicher und maschineller räumlicher Intelligenz bestehen. Die kontinuierliche Entwicklung umfassenderer Datasets und Benchmarks sowie die Erforschung innovativer Modellarchitekturen sind entscheidend, um VLMs in die Lage zu versetzen, die Komplexität der realen Welt, einschliesslich dynamischer Sportszenarien, vollständig zu erfassen und zu interpretieren.

Bibliographie

- Yuchen Yang, Yuqing Shao, Duxiu Huang, Linfeng Dong, Yifei Liu, Suixin Tang, Xiang Zhou, Yuanyuan Gao, Wei Wang, Yue Zhou, Xue Yang, Yanfeng Wang, Xiao Sun, Zhihang Zhong. Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports. arXiv preprint arXiv:2603.09896, 2026. - Hugging Face Daily Papers. https://huggingface.co/papers/week/2026-W11 - Mengdi Jia, Zekun Qi, Shaochen Zhang, Wenyao Zhang, Xinqiang Yu, Jiawei He, He Wang, Li Yi. OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models. arXiv preprint arXiv:2506.03135v1, 2025. - Songsong Yu, Yuxin Chen, Hao Ju, Lianjie Jia, Fuxi Zhang, Shaofei Huang, Yuhan Wu, Rundi Cui, Binghao Ran, Zaibin Zhang, Zhedong Zheng, Zhipeng Zhang, Yifan Wang, Lin Song, Lijun Wang, Yanwei Li, Ying Shan, Huchuan Lu. How Far are VLMs from Visual Spatial Intelligence? A Benchmark-Driven Perspective. arXiv preprint arXiv:2509.18905, 2025. - Julius Mayer, Mohamad Ballout, Serwan Jassim, Farbod Nosrat Nezami, Elia Bruni. iVISPAR — An Interactive Visual-Spatial Reasoning Benchmark for VLMs. arXiv preprint arXiv:2502.03214v2, 2025. - N. Balamurugan, S. Wu, A. Chun, G. Gaw, C. Eyzaguirre, T. Gerstenberg. Spot the ball: A benchmark for visual social inference. arXiv preprint, 2025. - Xiaoxing Lian, Aidong Yang, Jun Zhu, Peng Wang, Yue Zhang. Imagine-in-Space: Exploring the Frontier of Spatial Intelligence and Reasoning Efficiency in Vision–Language Models. arXiv preprint arXiv:2511.13782v1, 2025. - Peiran Xu, Sudong Wang, Yao Zhu, Jianing Li, Yunjian Zhang. SpatialBench: Benchmarking Multimodal Large Language Models for Spatial Cognition. arXiv preprint arXiv:2511.21471v1, 2025. - Haotian Xia, Zhengbang Yang, Junbo Zou, Rhys Tracy, Yuqing Wang, Chi Lu, Christopher Lai, Yanjun He, Xun Shao, Zhuoqing Xie, Yuan-fang Wang, Weining Shen, Hanjie Chen. SPORTU: A Comprehensive Sports Understanding Benchmark for Multimodal Large Language Models. arXiv preprint arXiv:2410.08474, 2024.