Künstliche Intelligenz (KI) hat in den letzten Jahren rasante Fortschritte gemacht. Doch wie misst man den tatsächlichen Fortschritt und die "Intelligenz" dieser Systeme? Ein ungewöhnlicher Ansatz nutzt Videospiele als Testumgebung, wie ein kürzlich durchgeführtes Experiment mit dem Klassiker Super Mario Bros. zeigt.
Forscher des Hao AI Lab an der University of California San Diego haben verschiedene große Sprachmodelle (LLMs) an einer Emulator-Version von Super Mario Bros. getestet. Die KI-Modelle, darunter Anthropics Claude und Googles Gemini, erhielten Anweisungen wie "Bei Hindernis oder Gegnern in der Nähe, nach links ausweichen" sowie Screenshots aus dem Spiel. Daraufhin generierten die LLMs Python-Code, um Mario zu steuern.
Die Ergebnisse des Experiments waren aufschlussreich: Anthropics Claude 3.7 schnitt am besten ab, während andere Modelle wie Gemini und GPT-4o Schwierigkeiten hatten, im Spielverlauf erfolgreich zu sein. Interessanterweise zeigten sogenannte "Reasoning"-Modelle, die Probleme schrittweise analysieren, schlechtere Leistungen als "Non-Reasoning"-Modelle. Dies liegt vermutlich an der längeren Entscheidungszeit der "Reasoning"-Modelle, die im schnellen Spielgeschehen von Super Mario Bros. einen Nachteil darstellt.
Der Test verdeutlicht, dass die im Experiment gemessenen Fähigkeiten eher die "Reflexe" der KI erfassen und somit nur einen Teilaspekt von dem abbilden, was gemeinhin als "Intelligenz" verstanden wird.
Die Verwendung von Videospielen zur Evaluierung von KI ist nicht neu. Spiele bieten eine kontrollierte Umgebung mit klaren Regeln und Zielen, die es ermöglichen, die Lern- und Anpassungsfähigkeit von KI-Systemen zu untersuchen. Allerdings wird die Aussagekraft solcher Tests von Experten kritisch diskutiert. Die vereinfachte und abstrakte Natur von Videospielen spiegelt nicht die Komplexität der realen Welt wider. Daher lassen sich die Ergebnisse nur bedingt auf andere Anwendungsbereiche übertragen.
Die Schwierigkeit, KI-Systeme umfassend zu bewerten, geht über die Grenzen von Gaming-Tests hinaus. Die Vielzahl unterschiedlicher Benchmarks und Tests erschwert eine klare Aussage über den tatsächlichen Entwicklungsstand der KI. Selbst Experten wie OpenAI-Mitbegründer Andrej Karpathy sprechen von einer "Evaluationskrise" und betonen die Herausforderung, die Intelligenz dieser Systeme präzise zu messen.
Mindverse, ein deutsches Unternehmen, spezialisiert sich auf die Entwicklung von KI-Lösungen, die Unternehmen dabei unterstützen, die Potenziale der Künstlichen Intelligenz zu nutzen. Von Chatbots und Voicebots über KI-Suchmaschinen bis hin zu maßgeschneiderten Wissensmanagementsystemen bietet Mindverse ein breites Spektrum an KI-basierten Tools und Dienstleistungen. In einer Zeit, in der die Bewertung und der Einsatz von KI zunehmend komplexer werden, bietet Mindverse Unternehmen die Möglichkeit, die Herausforderungen der Zukunft mit innovativen KI-Lösungen zu meistern.
Bibliographie: - t3n.de: KI spielt Super Mario: Warum selbst die schlauesten LLMs scheitern - t3n.de: Schlagwort: Künstliche Intelligenz - t3n.de: News - Threads.net: Wie misst man die Intelligenz von KI? - t3n.de: Schlagwort: Gaming - fz-juelich.de: Studie mit hoher JSC-Beteiligung zeigt dramatisches Scheitern von LLMs im logischen Denken