Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Große Sprachmodelle (LLMs), insbesondere solche, die für komplexes Schlussfolgern entwickelt wurden, wie Claude 3.7 oder Deepseek-R1, werden oft als Wegbereiter für eine allgemeinere Künstliche Intelligenz gepriesen. Durch Techniken wie "Chain-of-Thought" und Selbstreflexion sollen diese Modelle in der Lage sein, logische Probleme effizienter zu lösen als herkömmliche LLMs. Eine neue Studie von Apple-Forschern stellt diese Annahme jedoch in Frage und legt nahe, dass die Denkfähigkeiten dieser Modelle mit zunehmender Aufgabenkomplexität nicht Schritt halten können und in manchen Fällen sogar abnehmen.
Die Apple-Forscher untersuchten die Grenzen dieser Modelle anhand von vier klassischen Rätseltypen: Turm von Hanoi, Damespringen, Flussüberquerung und Blockwelt. Diese Szenarien ermöglichten es, die Komplexität kontrolliert zu steigern, ohne die zugrundeliegende Logik zu verändern.
Bei einfachen Aufgaben schnitten Standard-LLMs, wie beispielsweise eine Version von Claude 3.7 ohne den "Denkmodus", besser ab. Sie zeigten sowohl eine höhere Genauigkeit als auch einen geringeren Token-Verbrauch. Die spezialisierten Denkmodelle erzielten erst bei mittlerer Komplexität bessere Ergebnisse, allerdings auf Kosten eines deutlich höheren Token-Verbrauchs.
Bei hoher Komplexität versagten jedoch alle Modelle. Die Genauigkeit sank auf null, selbst bei ausreichenden Rechenressourcen. Überraschenderweise verwendeten die Denkmodelle bei den schwierigsten Problemen sogar weniger "Denk"-Token, was darauf hindeutet, dass sie ihren Denkprozess vorzeitig abbrachen, obwohl sie ihn hätten fortsetzen können.
Die Forscher analysierten auch die Denkprozesse der Modelle. Bei einfachen Problemen fanden die Modelle die richtige Antwort manchmal frühzeitig, suchten aber weiter und produzierten zusätzliche, falsche Alternativen – ein Phänomen, das als "Überdenken" bezeichnet wird. Bei mittlerer Komplexität erreichten die Modelle die korrekte Lösung in der Regel erst nach mehreren falschen Versuchen.
Bei höchster Komplexität scheiterten alle Modelle. Ihre Denkprozesse produzierten keine korrekten Antworten mehr – ein Zusammenbruch, der als "Unterdenken" beschrieben wird. Selbst wenn die Lösungsschritte vorgegeben wurden, brach die Ausführung der Modelle bei zunehmender Problemgröße zusammen.
Die Studie zeigte auch Unterschiede zwischen den Rätseltypen. Die Forscher vermuten, dass die Häufigkeit von Beispielproblemen in den Trainingsdaten eine Rolle spielen könnte: Der Turm von Hanoi ist online häufiger vertreten als komplexe Flussüberquerungsrätsel, was den Leistungsunterschied erklären könnte.
Die Apple-Forscher kommen zu einem ernüchternden Schluss: Aktuelle Denkmodelle entwickeln keine allgemeinen Strategien zur Problemlösung. Selbst mit Mechanismen wie Selbstreflexion und erweiterten Denkpfaden können sie mit zunehmender Aufgabenkomplexität nicht Schritt halten.
Sie beschreiben ihre Ergebnisse als eine "fundamentale Skalierungsbeschränkung in den Denkfähigkeiten aktueller Denkmodelle im Verhältnis zur Problemkomplexität" und legen nahe, dass die grundlegenden Designprinzipien dieser Modelle überdacht werden müssen, um robustes maschinelles Denken zu erreichen.
Diese Erkenntnisse sind besonders relevant, da Unternehmen wie OpenAI stark auf Denkmethoden setzen, um über die traditionelle Skalierung mit größeren Datensätzen und Modellen hinauszugehen. Da die Gewinne aus immer größeren Datenmengen und Parametern zu stagnieren beginnen, wird das Schlussfolgern als ein möglicher neuer Weg nach vorne betrachtet.
Es ist unklar, ob sich die Probleme in den Rätselumgebungen auf andere Bereiche übertragen lassen. Die Apple-Forscher weisen darauf hin, dass Rätseltests zwar eine präzise Analyse ermöglichen, aber nur einen engen Aspekt des realen Schlussfolgerns abdecken. Komplexere, wissensreiche Aufgaben könnten andere Stärken und Schwächen offenbaren.
Bibliographie: https://machinelearning.apple.com/research/illusion-of-thinking https://the-decoder.com/apple-study-finds-a-fundamental-scaling-limitation-in-reasoning-models-thinking-abilities/ https://www.reddit.com/r/MachineLearning/comments/1l5hzhs/r_apple_research_the_illusion_of_thinking/ https://sandar-ali.medium.com/an-examination-of-apples-the-illusion-of-thinking-verifying-claims-on-ai-reasoning-limitations-13d9a9b113e1 https://www.hindustantimes.com/business/thinking-ai-models-collapse-in-face-of-complex-problems-apple-researchers-find-101749305499965.html https://ppc.land/apple-study-exposes-fundamental-limits-in-ai-reasoning-models-through-puzzle-tests/ https://www.youtube.com/watch?v=fGcfJ9J_Faw https://p4sc4l.substack.com/p/apples-study-is-a-refreshing-act https://www.aitechsuite.com/ai-news/apple-research-ai-models-lack-true-reasoning-hit-scaling-wall https://medium.com/@ninza7/apple-just-pulled-the-plug-on-the-ai-hype-heres-what-their-shocking-study-found-24ad42c234a0Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen