Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Eine aktuelle Studie chinesischer Forscher hat aufgezeigt, warum KI-Modelle, die auf komplexe Schlussfolgerungen spezialisiert sind, häufig Schwierigkeiten haben: Sie neigen dazu, vielversprechende Lösungsansätze zu früh zu verwerfen. Dies führt zu einer ineffizienten Nutzung der Rechenleistung und letztlich zu einer geringeren Genauigkeit der Ergebnisse.
Die Wissenschaftler des Tencent AI Lab, der Soochow University und der Shanghai Jiao Tong University haben beobachtet, dass sogenannte Reasoning-Modelle wie OpenAI's o1 während des Lösungsprozesses häufig zwischen verschiedenen Strategien hin und her springen. Formulierungen wie "Alternativ…" deuten auf einen solchen Strategiewechsel hin. Dieses Verhalten verstärkt sich mit zunehmender Komplexität der Aufgaben. Interessanterweise verbrauchen die Modelle mehr Rechenleistung, wenn sie zu falschen Ergebnissen gelangen.
Ein Beispiel: Das QwQ-32B-Preview-Modell testete im Rahmen der Studie bis zu 25 verschiedene Lösungsansätze für eine einzige Aufgabe. Diese häufigen Strategiewechsel führen zu einer ineffizienten Nutzung der vorhandenen Ressourcen.
Die Analyse der Ergebnisse zeigte, dass 70 Prozent der falschen Antworten mindestens einen validen Lösungsansatz enthielten, der jedoch nicht vollständig verfolgt wurde. Im Vergleich zu korrekten Lösungen verwendeten die Modelle bei falschen Antworten 225 Prozent mehr Rechenleistung (gemessen in Tokens) und wechselten 418 Prozent häufiger die Strategie.
Um dieses Problem zu quantifizieren, entwickelten die Forscher eine neue Metrik. Diese misst, wie effizient die Modelle ihre Rechenleistung nutzen, insbesondere wenn sie falsche Ergebnisse produzieren. Konkret wurde untersucht, wie viele Tokens tatsächlich zur Lösungsfindung beitragen, bevor das Modell zu einem anderen Ansatz wechselt.
Die Forscher testeten ihre Hypothese anhand von drei anspruchsvollen Aufgabenstellungen: Mathematik-Wettbewerbsaufgaben, Physik-Aufgaben auf Universitätsniveau und chemische Problemstellungen. Modelle wie QwQ-32B-Preview und Deepseek-R1-671B wurden dabei hinsichtlich ihrer Fähigkeit zur komplexen Schlussfolgerung untersucht. Die Ergebnisse bestätigten, dass Modelle im Stil von o1 häufig Tokens verschwenden, indem sie zu schnell zwischen verschiedenen Ansätzen wechseln. Überraschenderweise korrelierte eine höhere Lösungsquote nicht zwangsläufig mit einer effizienteren Nutzung der Rechenleistung.
Um dem Problem des ineffizienten "Denkens" entgegenzuwirken, entwickelten die Forscher die sogenannte "Thought Switching Penalty" (TIP). Diese Methode beeinflusst die Wahrscheinlichkeit, mit der bestimmte Tokens – die Bausteine der Modellantworten – verwendet werden. Wenn das Modell Wörter verwendet, die auf einen Strategiewechsel hindeuten (z.B. "Alternativ…"), reduziert TIP die Wahrscheinlichkeit dieser Wörter. Dadurch wird das Modell dazu angehalten, den aktuellen Lösungsansatz gründlicher zu verfolgen, bevor es zu einem anderen wechselt.
Durch die Anwendung von TIP konnte die Genauigkeit des QwQ-32B-Preview-Modells bei der Lösung von MATH500-Hard-Problemen von 82,8 auf 84,3 Prozent gesteigert werden. Gleichzeitig zeigte das Modell ein konsistenteres Schlussfolgerungsverhalten. Ähnliche Verbesserungen wurden auch bei anderen anspruchsvollen Aufgabenstellungen wie GPQA Diamond und AIME2024 beobachtet.
Die Ergebnisse der Studie verdeutlichen, dass für eine effektive KI-basierte Schlussfolgerung nicht nur hohe Rechenleistung, sondern auch die Fähigkeit zum strategischen Denken entscheidend ist. Modelle müssen lernen, vielversprechende Lösungsansätze konsequent zu verfolgen. Zukünftige Forschung sollte sich darauf konzentrieren, wie Modelle ihr eigenes Problemlösungsverhalten besser steuern können – indem sie lernen, wann sie einen Ansatz weiterverfolgen und wann es tatsächlich sinnvoll ist, einen neuen Weg einzuschlagen.
Quellen: https://the-decoder.com/reasoning-models-like-deepseek-r1-and-openai-o1-suffer-from-underthinking-study-finds/ https://arxiv.org/html/2501.18585v1 https://the-decoder.de/erratische-gedankenspruenge-beeinflussen-die-leistung-von-reasoning-llms-wie-o1/ https://arxiv.org/pdf/2501.18585? https://dev.to/mikeyoung44/ai-models-scattered-thinking-patterns-lead-to-30-drop-in-performance-study-shows-16ih https://medium.com/@david.cepeda/the-art-of-reasoning-ai-prompting-a-framework-for-openais-o1-deepseek-r1-and-openai-s-upcoming-415e216a4ba7 https://www.threads.net/@theturingpost/post/DFjeM_iRwrV https://www.aimodels.fyi/papers/arxiv/thoughts-are-all-over-place-underthinking-o1 https://www.youtube.com/watch?v=HmLwauGUepo https://www.reddit.com/r/LocalLLaMA/comments/1ifcqwj/longer_thinking_token_might_not_be_a_best_way/Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen