Ineffiziente Schlussfolgerungen von KI-Modellen und deren Auswirkungen auf die Rechenleistung

Kategorien:

No items found.

Freigegeben:

February 3, 2025

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Ineffizientes "Denken" bei KI-Modellen wie Deepseek-R1 und OpenAI o1 entdeckt

Eine aktuelle Studie chinesischer Forscher hat aufgezeigt, warum KI-Modelle, die auf komplexe Schlussfolgerungen spezialisiert sind, häufig Schwierigkeiten haben: Sie neigen dazu, vielversprechende Lösungsansätze zu früh zu verwerfen. Dies führt zu einer ineffizienten Nutzung der Rechenleistung und letztlich zu einer geringeren Genauigkeit der Ergebnisse.

Ständiger Strategiewechsel verschwendet Ressourcen

Die Wissenschaftler des Tencent AI Lab, der Soochow University und der Shanghai Jiao Tong University haben beobachtet, dass sogenannte Reasoning-Modelle wie OpenAI's o1 während des Lösungsprozesses häufig zwischen verschiedenen Strategien hin und her springen. Formulierungen wie "Alternativ…" deuten auf einen solchen Strategiewechsel hin. Dieses Verhalten verstärkt sich mit zunehmender Komplexität der Aufgaben. Interessanterweise verbrauchen die Modelle mehr Rechenleistung, wenn sie zu falschen Ergebnissen gelangen.

Ein Beispiel: Das QwQ-32B-Preview-Modell testete im Rahmen der Studie bis zu 25 verschiedene Lösungsansätze für eine einzige Aufgabe. Diese häufigen Strategiewechsel führen zu einer ineffizienten Nutzung der vorhandenen Ressourcen.

Häufig falsche Ergebnisse trotz richtiger Ansätze

Die Analyse der Ergebnisse zeigte, dass 70 Prozent der falschen Antworten mindestens einen validen Lösungsansatz enthielten, der jedoch nicht vollständig verfolgt wurde. Im Vergleich zu korrekten Lösungen verwendeten die Modelle bei falschen Antworten 225 Prozent mehr Rechenleistung (gemessen in Tokens) und wechselten 418 Prozent häufiger die Strategie.

Neue Metrik zur Messung der Denkeffizienz

Um dieses Problem zu quantifizieren, entwickelten die Forscher eine neue Metrik. Diese misst, wie effizient die Modelle ihre Rechenleistung nutzen, insbesondere wenn sie falsche Ergebnisse produzieren. Konkret wurde untersucht, wie viele Tokens tatsächlich zur Lösungsfindung beitragen, bevor das Modell zu einem anderen Ansatz wechselt.

Tests mit anspruchsvollen Aufgabenstellungen

Die Forscher testeten ihre Hypothese anhand von drei anspruchsvollen Aufgabenstellungen: Mathematik-Wettbewerbsaufgaben, Physik-Aufgaben auf Universitätsniveau und chemische Problemstellungen. Modelle wie QwQ-32B-Preview und Deepseek-R1-671B wurden dabei hinsichtlich ihrer Fähigkeit zur komplexen Schlussfolgerung untersucht. Die Ergebnisse bestätigten, dass Modelle im Stil von o1 häufig Tokens verschwenden, indem sie zu schnell zwischen verschiedenen Ansätzen wechseln. Überraschenderweise korrelierte eine höhere Lösungsquote nicht zwangsläufig mit einer effizienteren Nutzung der Rechenleistung.

"Thought Switching Penalty" zur Verbesserung der Denkeffizienz

Um dem Problem des ineffizienten "Denkens" entgegenzuwirken, entwickelten die Forscher die sogenannte "Thought Switching Penalty" (TIP). Diese Methode beeinflusst die Wahrscheinlichkeit, mit der bestimmte Tokens – die Bausteine der Modellantworten – verwendet werden. Wenn das Modell Wörter verwendet, die auf einen Strategiewechsel hindeuten (z.B. "Alternativ…"), reduziert TIP die Wahrscheinlichkeit dieser Wörter. Dadurch wird das Modell dazu angehalten, den aktuellen Lösungsansatz gründlicher zu verfolgen, bevor es zu einem anderen wechselt.

Erfolgreiche Anwendung der TIP-Methode

Durch die Anwendung von TIP konnte die Genauigkeit des QwQ-32B-Preview-Modells bei der Lösung von MATH500-Hard-Problemen von 82,8 auf 84,3 Prozent gesteigert werden. Gleichzeitig zeigte das Modell ein konsistenteres Schlussfolgerungsverhalten. Ähnliche Verbesserungen wurden auch bei anderen anspruchsvollen Aufgabenstellungen wie GPQA Diamond und AIME2024 beobachtet.

Fazit: Nicht nur Rechenleistung, sondern auch strategisches Denken zählt

Die Ergebnisse der Studie verdeutlichen, dass für eine effektive KI-basierte Schlussfolgerung nicht nur hohe Rechenleistung, sondern auch die Fähigkeit zum strategischen Denken entscheidend ist. Modelle müssen lernen, vielversprechende Lösungsansätze konsequent zu verfolgen. Zukünftige Forschung sollte sich darauf konzentrieren, wie Modelle ihr eigenes Problemlösungsverhalten besser steuern können – indem sie lernen, wann sie einen Ansatz weiterverfolgen und wann es tatsächlich sinnvoll ist, einen neuen Weg einzuschlagen.

Quellen: https://the-decoder.com/reasoning-models-like-deepseek-r1-and-openai-o1-suffer-from-underthinking-study-finds/ https://arxiv.org/html/2501.18585v1 https://the-decoder.de/erratische-gedankenspruenge-beeinflussen-die-leistung-von-reasoning-llms-wie-o1/ https://arxiv.org/pdf/2501.18585? https://dev.to/mikeyoung44/ai-models-scattered-thinking-patterns-lead-to-30-drop-in-performance-study-shows-16ih https://medium.com/@david.cepeda/the-art-of-reasoning-ai-prompting-a-framework-for-openais-o1-deepseek-r1-and-openai-s-upcoming-415e216a4ba7 https://www.threads.net/@theturingpost/post/DFjeM_iRwrV https://www.aimodels.fyi/papers/arxiv/thoughts-are-all-over-place-underthinking-o1 https://www.youtube.com/watch?v=HmLwauGUepo https://www.reddit.com/r/LocalLLaMA/comments/1ifcqwj/longer_thinking_token_might_not_be_a_best_way/