Große Sprachmodelle (LLMs), insbesondere solche, die für komplexes Schlussfolgern entwickelt wurden, wie Claude 3.7 oder Deepseek-R1, werden oft als Wegbereiter für eine allgemeinere Künstliche Intelligenz gepriesen. Durch Techniken wie "Chain-of-Thought" und Selbstreflexion sollen diese Modelle in der Lage sein, logische Probleme effizienter zu lösen als herkömmliche LLMs. Eine neue Studie von Apple-Forschern stellt diese Annahme jedoch in Frage und legt nahe, dass die Denkfähigkeiten dieser Modelle mit zunehmender Aufgabenkomplexität nicht Schritt halten können und in manchen Fällen sogar abnehmen.
Die Apple-Forscher untersuchten die Grenzen dieser Modelle anhand von vier klassischen Rätseltypen: Turm von Hanoi, Damespringen, Flussüberquerung und Blockwelt. Diese Szenarien ermöglichten es, die Komplexität kontrolliert zu steigern, ohne die zugrundeliegende Logik zu verändern.
Bei einfachen Aufgaben schnitten Standard-LLMs, wie beispielsweise eine Version von Claude 3.7 ohne den "Denkmodus", besser ab. Sie zeigten sowohl eine höhere Genauigkeit als auch einen geringeren Token-Verbrauch. Die spezialisierten Denkmodelle erzielten erst bei mittlerer Komplexität bessere Ergebnisse, allerdings auf Kosten eines deutlich höheren Token-Verbrauchs.
Bei hoher Komplexität versagten jedoch alle Modelle. Die Genauigkeit sank auf null, selbst bei ausreichenden Rechenressourcen. Überraschenderweise verwendeten die Denkmodelle bei den schwierigsten Problemen sogar weniger "Denk"-Token, was darauf hindeutet, dass sie ihren Denkprozess vorzeitig abbrachen, obwohl sie ihn hätten fortsetzen können.
Die Forscher analysierten auch die Denkprozesse der Modelle. Bei einfachen Problemen fanden die Modelle die richtige Antwort manchmal frühzeitig, suchten aber weiter und produzierten zusätzliche, falsche Alternativen – ein Phänomen, das als "Überdenken" bezeichnet wird. Bei mittlerer Komplexität erreichten die Modelle die korrekte Lösung in der Regel erst nach mehreren falschen Versuchen.
Bei höchster Komplexität scheiterten alle Modelle. Ihre Denkprozesse produzierten keine korrekten Antworten mehr – ein Zusammenbruch, der als "Unterdenken" beschrieben wird. Selbst wenn die Lösungsschritte vorgegeben wurden, brach die Ausführung der Modelle bei zunehmender Problemgröße zusammen.
Die Studie zeigte auch Unterschiede zwischen den Rätseltypen. Die Forscher vermuten, dass die Häufigkeit von Beispielproblemen in den Trainingsdaten eine Rolle spielen könnte: Der Turm von Hanoi ist online häufiger vertreten als komplexe Flussüberquerungsrätsel, was den Leistungsunterschied erklären könnte.
Die Apple-Forscher kommen zu einem ernüchternden Schluss: Aktuelle Denkmodelle entwickeln keine allgemeinen Strategien zur Problemlösung. Selbst mit Mechanismen wie Selbstreflexion und erweiterten Denkpfaden können sie mit zunehmender Aufgabenkomplexität nicht Schritt halten.
Sie beschreiben ihre Ergebnisse als eine "fundamentale Skalierungsbeschränkung in den Denkfähigkeiten aktueller Denkmodelle im Verhältnis zur Problemkomplexität" und legen nahe, dass die grundlegenden Designprinzipien dieser Modelle überdacht werden müssen, um robustes maschinelles Denken zu erreichen.
Diese Erkenntnisse sind besonders relevant, da Unternehmen wie OpenAI stark auf Denkmethoden setzen, um über die traditionelle Skalierung mit größeren Datensätzen und Modellen hinauszugehen. Da die Gewinne aus immer größeren Datenmengen und Parametern zu stagnieren beginnen, wird das Schlussfolgern als ein möglicher neuer Weg nach vorne betrachtet.
Es ist unklar, ob sich die Probleme in den Rätselumgebungen auf andere Bereiche übertragen lassen. Die Apple-Forscher weisen darauf hin, dass Rätseltests zwar eine präzise Analyse ermöglichen, aber nur einen engen Aspekt des realen Schlussfolgerns abdecken. Komplexere, wissensreiche Aufgaben könnten andere Stärken und Schwächen offenbaren.
Bibliographie: https://machinelearning.apple.com/research/illusion-of-thinking https://the-decoder.com/apple-study-finds-a-fundamental-scaling-limitation-in-reasoning-models-thinking-abilities/ https://www.reddit.com/r/MachineLearning/comments/1l5hzhs/r_apple_research_the_illusion_of_thinking/ https://sandar-ali.medium.com/an-examination-of-apples-the-illusion-of-thinking-verifying-claims-on-ai-reasoning-limitations-13d9a9b113e1 https://www.hindustantimes.com/business/thinking-ai-models-collapse-in-face-of-complex-problems-apple-researchers-find-101749305499965.html https://ppc.land/apple-study-exposes-fundamental-limits-in-ai-reasoning-models-through-puzzle-tests/ https://www.youtube.com/watch?v=fGcfJ9J_Faw https://p4sc4l.substack.com/p/apples-study-is-a-refreshing-act https://www.aitechsuite.com/ai-news/apple-research-ai-models-lack-true-reasoning-hit-scaling-wall https://medium.com/@ninza7/apple-just-pulled-the-plug-on-the-ai-hype-heres-what-their-shocking-study-found-24ad42c234a0Entdecken Sie die Vorteile gegenüber ChatGPT Plus
Sie nutzen bereits ChatGPT Plus? Das ist ein guter Anfang! Aber stellen Sie sich vor, Sie hätten Zugang zu allen führenden KI-Modellen weltweit, könnten mit Ihren eigenen Dokumenten arbeiten und nahtlos im Team kollaborieren.
Die professionelle KI-Plattform für Unternehmen – leistungsstärker, flexibler und sicherer als ChatGPT Plus. Mit über 50 Modellen, DSGVO-konformer Infrastruktur und tiefgreifender Integration in Unternehmensprozesse.
❌ Kein strukturierter Dokumentenvergleich
❌ Keine Bearbeitung im Dokumentkontext
❌ Keine Integration von Unternehmenswissen
✅ Gezielter Dokumentenvergleich mit Custom-Prompts
✅ Kontextbewusste Textbearbeitung im Editor
✅ Wissensbasierte Analyse & Zusammenfassungen
Erstellen Sie leistungsstarke Wissensdatenbanken aus Ihren Unternehmensdokumenten.Mindverse Studio verknüpft diese direkt mit der KI – für präzise, kontextbezogene Antworten auf Basis Ihres spezifischen Know-hows.DSGVO-konform, transparent und jederzeit nachvollziehbar.
❌ Nur ein Modellanbieter (OpenAI)
❌ Keine Modellauswahl pro Use Case
❌ Keine zentrale Modellsteuerung für Teams
✅ Zugriff auf über 50 verschiedene KI-Modelle
✅ Modellauswahl pro Prompt oder Assistent
✅ Zentrale Steuerung auf Organisationsebene
❌ Keine echte Teamkollaboration
❌ Keine Rechte- oder Rollenverteilung
❌ Keine zentrale Steuerung oder Nachvollziehbarkeit
✅ Teamübergreifende Bearbeitung in Echtzeit
✅ Granulare Rechte- und Freigabeverwaltung
✅ Zentrale Steuerung & Transparenz auf Organisationsebene
Nutzen Sie Mindverse Studio als zentrale Plattform für abteilungsübergreifende Zusammenarbeit.Teilen Sie Wissen, erstellen Sie gemeinsame Workflows und integrieren Sie KI nahtlos in Ihre täglichen Prozesse – sicher, skalierbar und effizient.Mit granularen Rechten, transparenter Nachvollziehbarkeit und Echtzeit-Kollaboration.
Sehen Sie Mindverse Studio in Aktion. Buchen Sie eine persönliche 30-minütige Demo.
🎯 Kostenlose Demo buchenLernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen