KI für Ihr Unternehmen – Jetzt Demo buchen

Apples Forschung hinterfragt die logischen Fähigkeiten moderner KI-Modelle

Kategorien:
No items found.
Freigegeben:
October 13, 2024

Artikel jetzt als Podcast anhören

Apples KI-Forscher hinterfragen OpenAIs Behauptungen über die Denkfähigkeiten von o1

Eine neue Studie von Apple-Forschern, darunter der renommierte KI-Wissenschaftler Samy Bengio, stellt die logischen Fähigkeiten der heutigen großen Sprachmodelle - selbst von OpenAIs neuem "Reasoning Model" o1 - in Frage.

Ein neuer Bewertungsmaßstab

Das Team unter der Leitung von Mehrdad Farajtabar entwickelte zwei neue Bewertungstools namens GSM-Symbolic und GSM-NoOp. Diese Tools bauen auf dem mathematischen Argumentationsdatensatz GSM8K auf und fügen symbolische Vorlagen hinzu, um KI-Modelle gründlicher zu testen.

Die Forscher testeten Open-Source-Modelle wie Llama, Phi, Gemma und Mistral sowie proprietäre Modelle, darunter die neuesten Angebote von OpenAI. Die Ergebnisse, die auf arXiv veröffentlicht wurden, deuten darauf hin, dass selbst führende Modelle wie GPT-4o und o1 von OpenAI keine wirkliche Logik verwenden, sondern lediglich Muster nachahmen.

Das Hinzufügen irrelevanter Informationen verringert die Leistung

Die Ergebnisse zeigen, dass die aktuellen Genauigkeitswerte für GSM8K unzuverlässig sind. Die Forscher fanden große Leistungsunterschiede: Das Modell Llama-8B beispielsweise erreichte eine Bewertung zwischen 70 und 80 Prozent, während Phi-3 zwischen 75 und 90 Prozent schwankte. Bei den meisten Modellen war die durchschnittliche Leistung bei GSM-Symbolic geringer als beim ursprünglichen GSM8K, sagt Farajtabar.

Besonders aufschlussreich war das Experiment mit dem Datensatz GSM-NoOp. Hier fügten die Forscher einem Textproblem eine einzige Aussage hinzu, die zwar relevant erschien, aber nicht zum Gesamtausführungsgang beitrug.

Das Ergebnis war ein Leistungsrückgang bei allen Modellen, einschließlich der o1-Modelle von OpenAI. "Würde sich das Ergebnis eines Mathematikklassenarbeitstests eines Grundschülers um ~10 % ändern, wenn wir nur die Namen ändern würden?", fragt Farajtabar rhetorisch.

Farajtabar betont, dass das eigentliche Problem der dramatische Anstieg der Varianz und der Rückgang der Leistung ist, wenn der Schwierigkeitsgrad der Aufgabe nur geringfügig steigt. Um mit der Varianz bei steigendem Schwierigkeitsgrad umgehen zu können, werden wahrscheinlich "exponentiell mehr Daten" benötigt.

Skalierung würde nur zu besseren Musterabgleichern führen

Die OpenAI o1-Serie, die bei vielen Benchmarks Spitzenwerte erzielt, schneidet zwar besser ab, leidet aber immer noch unter Leistungsschwankungen und macht "dumme Fehler", was laut den Forschern die gleichen grundlegenden Schwächen zeigt. Diese Erkenntnis wird durch eine andere kürzlich veröffentlichte Studie gestützt.

"Insgesamt fanden wir keine Hinweise auf formales Denken in den Sprachmodellen", folgert Farajtabar. "Ihr Verhalten lässt sich besser durch ausgeklügeltes Pattern Matching erklären." Die Skalierung von Daten, Parametern und Rechenleistung würde zu besseren Musterabgleichern, aber "nicht unbedingt zu besseren Denkmaschinen" führen.

Jenseits der Mustererkennung

Die Apple-Forscher betonen, dass das Verständnis der wahren Denkfähigkeiten von LLMs entscheidend für ihren Einsatz in realen Szenarien ist, in denen Genauigkeit und Konsistenz unerlässlich sind - insbesondere in den Bereichen KI-Sicherheit, Abstimmung, Bildung, Gesundheitswesen und Entscheidungssysteme.

"Wir glauben, dass weitere Forschung unerlässlich ist, um KI-Modelle zu entwickeln, die zu formalem Denken fähig sind und über die Mustererkennung hinausgehen, um robustere und besser verallgemeinerbare Problemlösungsfähigkeiten zu erreichen", so das Fazit der Studie. Dies ist eine zentrale Herausforderung auf dem Weg zu Systemen mit menschenähnlichen kognitiven Fähigkeiten oder allgemeiner Intelligenz.

Debatte in der KI-Forschung

Interessant an der Studie ist, dass zwei führende KI-Forschungseinrichtungen, Apple und OpenAI, gegensätzliche Positionen vertreten. OpenAI ist der Ansicht, dass o1 das erste Denkmodell (Stufe 2) ist, das den Grundstein für logische Agenten (Stufe 3) legt, die der nächste Wachstumsbereich für OpenAI sein sollen.

Abgeschwächt werden die Argumente der Apple-Forscher beispielsweise durch einen neuen OpenAI-Benchmark, der zeigt, dass o1 Aufgaben des maschinellen Lernens lösen kann. OpenAI gibt an, Testexemplare explizit aus den Trainingsdaten ausgeschlossen zu haben. Eine andere Studie kommt zu dem Schluss, dass KI-Modelle zumindest eine Art probabilistisches Denken durchführen.

Ein Grund für diese unterschiedlichen Einschätzungen mag sein, dass Begriffe wie Intelligenz, Denken und Logik unscharf sind, in Abstufungen und Graden auftreten können oder im Falle von maschineller Logik neue Formen annehmen können.

Letztlich wird die akademische Diskussion in den Hintergrund treten, wenn zukünftige KI-Modelle die ihnen gestellten Aufgaben zuverlässig lösen können - und genau das muss OpenAI mit seiner Bewertung von über 150 Milliarden Dollar beweisen.

Quellen

Arxiv
Farajtabar via X
Matthias Bastian
https://www.linkedin.com/posts/anthony-alcaraz-b80763155_why-openai-o1s-training-method-will-open-activity-7240081676117192705-xQGZ
https://finance.yahoo.com/news/openai-releases-ai-model-answers-175305123.html
https://www.ft.com/content/af6b293c-113d-4aac-b9d8-d4f65596f645
https://www.reddit.com/r/apple/comments/1ff9n98/apple_intelligence_is_going_to_blow_everyone_out/
https://www.pymnts.com/artificial-intelligence-2/2024/this-week-in-ai-openai-and-apple-roll-out-new-products/
https://techxplore.com/news/2024-09-openai-ai-eye-safety-accuracy.html
https://www.theguardian.com/technology/article/2024/aug/24/apple-intelligence-iphone-ios-18-siri-chat-gpt-launch
https://www.youtube.com/watch?v=j9vTEhimRqk
https://machinelearning.apple.com/research/introducing-apple-foundation-models
Was bedeutet das?
Mindverse vs ChatGPT Plus Widget

Warum Mindverse Studio?

Entdecken Sie die Vorteile gegenüber ChatGPT Plus

Sie nutzen bereits ChatGPT Plus? Das ist ein guter Anfang! Aber stellen Sie sich vor, Sie hätten Zugang zu allen führenden KI-Modellen weltweit, könnten mit Ihren eigenen Dokumenten arbeiten und nahtlos im Team kollaborieren.

🚀 Mindverse Studio

Die professionelle KI-Plattform für Unternehmen – leistungsstärker, flexibler und sicherer als ChatGPT Plus. Mit über 50 Modellen, DSGVO-konformer Infrastruktur und tiefgreifender Integration in Unternehmensprozesse.

ChatGPT Plus

❌ Kein strukturierter Dokumentenvergleich

❌ Keine Bearbeitung im Dokumentkontext

❌ Keine Integration von Unternehmenswissen

VS

Mindverse Studio

✅ Gezielter Dokumentenvergleich mit Custom-Prompts

✅ Kontextbewusste Textbearbeitung im Editor

✅ Wissensbasierte Analyse & Zusammenfassungen

📚 Nutzen Sie Ihr internes Wissen – intelligent und sicher

Erstellen Sie leistungsstarke Wissensdatenbanken aus Ihren Unternehmensdokumenten.Mindverse Studio verknüpft diese direkt mit der KI – für präzise, kontextbezogene Antworten auf Basis Ihres spezifischen Know-hows.DSGVO-konform, transparent und jederzeit nachvollziehbar.

ChatGPT Plus

❌ Nur ein Modellanbieter (OpenAI)

❌ Keine Modellauswahl pro Use Case

❌ Keine zentrale Modellsteuerung für Teams

VS

Mindverse Studio

✅ Zugriff auf über 50 verschiedene KI-Modelle

✅ Modellauswahl pro Prompt oder Assistent

✅ Zentrale Steuerung auf Organisationsebene

🧠 Zugang zu allen führenden KI-Modellen – flexibel & anpassbar

OpenAI GPT-4: für kreative Texte und allgemeine Anwendungen
Anthropic Claude: stark in Analyse, Struktur und komplexem Reasoning
Google Gemini: ideal für multimodale Aufgaben (Text, Bild, Code)
Eigene Engines: individuell trainiert auf Ihre Daten und Prozesse

ChatGPT Plus

❌ Keine echte Teamkollaboration

❌ Keine Rechte- oder Rollenverteilung

❌ Keine zentrale Steuerung oder Nachvollziehbarkeit

VS

Mindverse Studio

✅ Teamübergreifende Bearbeitung in Echtzeit

✅ Granulare Rechte- und Freigabeverwaltung

✅ Zentrale Steuerung & Transparenz auf Organisationsebene

👥 Kollaborative KI für Ihr gesamtes Unternehmen

Nutzen Sie Mindverse Studio als zentrale Plattform für abteilungsübergreifende Zusammenarbeit.Teilen Sie Wissen, erstellen Sie gemeinsame Workflows und integrieren Sie KI nahtlos in Ihre täglichen Prozesse – sicher, skalierbar und effizient.Mit granularen Rechten, transparenter Nachvollziehbarkeit und Echtzeit-Kollaboration.

Bereit für den nächsten Schritt?

Sehen Sie Mindverse Studio in Aktion. Buchen Sie eine persönliche 30-minütige Demo.

🎯 Kostenlose Demo buchen

Wie können wir Ihnen heute helfen?

Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
Herzlichen Dank! Deine Nachricht ist eingegangen!
Oops! Du hast wohl was vergessen, versuche es nochmal.

🚀 Neugierig auf Mindverse Studio?

Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

🚀 Demo jetzt buchen