Große Sprachmodelle (Large Language Models, LLMs) haben in den letzten Jahren beeindruckende Fortschritte in der Verarbeitung natürlicher Sprache erzielt. Sie können komplexe Aufgaben wie Textgenerierung, Übersetzung und Beantwortung von Fragen bewältigen. Allerdings stoßen diese Modelle bei besonders anspruchsvollen Aufgaben, die logisches Denken erfordern, oft an ihre Grenzen. Ein gängiger Ansatz zur Verbesserung der Denkfähigkeit von LLMs ist die sogenannte "Chain-of-Thought" (CoT) Methode. Dabei wird das Modell dazu angehalten, seine Gedankenschritte explizit darzulegen, bevor es eine endgültige Antwort liefert. Dies führt jedoch häufig zu extrem langen und ineffizienten Denkprozessen, die sowohl die Rechenzeit als auch den Ressourcenverbrauch erhöhen.
Ein neuer Forschungsansatz namens "Multi-Turn Decomposition" (MinD) verspricht hier Abhilfe. MinD zerlegt den komplexen CoT-Prozess in kleinere, überschaubare Denkschritte, die als "Turns" bezeichnet werden. Jeder Turn konzentriert sich auf einen spezifischen Aspekt des Problems und liefert eine Teilantwort. Anschließende Turns können die Ergebnisse vorheriger Turns reflektieren, überprüfen, korrigieren oder alternative Lösungsansätze erkunden. Dieser iterative Prozess ermöglicht es dem Modell, schrittweise zu einer präzisen Lösung zu gelangen, ohne dabei in unnötig lange Gedankenschleifen zu geraten.
Die Implementierung von MinD erfolgt in zwei Phasen: Supervised Fine-Tuning (SFT) und Reinforcement Learning (RL). Im SFT-Schritt wird ein LLM mit umformulierten Ausgaben eines anderen LLMs trainiert, die dem Multi-Turn-Format entsprechen. Da diese umformulierten Ausgaben jedoch zusätzliche Tokens für die einzelnen Antworten enthalten, kann der Token-Verbrauch im Vergleich zum ursprünglichen Modell sogar steigen. Um diesem Problem entgegenzuwirken, kommt im RL-Schritt ein Algorithmus wie GRPO zum Einsatz. Dieser Algorithmus belohnt korrekte Ausgaben mit möglichst wenigen Turns und optimiert so die Effizienz des Modells.
Tests mit dem MATH-Datensatz und R1-Distill-Modellen zeigen, dass MinD die Anzahl der Output-Tokens und die Zeit bis zum ersten Token (Time To First Token, TTFT) um bis zu 70% reduzieren kann, ohne dabei die Genauigkeit der Antworten zu beeinträchtigen. Auch auf anderen Benchmark-Datensätzen wie MATH-500, AIME24, AMC23 und GPQA-Diamond konnte MinD überzeugen.
Die Vorteile von MinD liegen auf der Hand: Durch die Zerlegung komplexer Denkvorgänge in kleinere Einheiten wird die Effizienz der LLMs deutlich gesteigert. Gleichzeitig ermöglicht die strukturierte Vorgehensweise eine bessere Kontrolle über den Denkprozess und erleichtert die Fehleranalyse. Darüber hinaus bietet MinD die Möglichkeit, den Denkprozess jederzeit zu unterbrechen oder fortzusetzen, was die Interaktion mit dem Modell flexibler gestaltet.
Für Unternehmen wie Mindverse, die sich auf die Entwicklung von KI-basierten Lösungen spezialisiert haben, bietet MinD ein großes Potenzial. Die Technologie könnte beispielsweise in Chatbots, Voicebots, KI-Suchmaschinen und Wissenssystemen integriert werden, um deren Effizienz und Genauigkeit zu verbessern. Auch die Entwicklung maßgeschneiderter KI-Lösungen könnte durch MinD vereinfacht werden.
Bibliographie: https://huggingface.co/papers/2505.19788 https://www.usenix.org/conference/usenixsecurity25/cycle1-accepted-papers https://mediatum.ub.tum.de/doc/999357/999357.pdf https://github.com/dair-ai/ML-Papers-of-the-Week https://iclr.cc/virtual/2024/calendar?filter_events=Social&filter_rooms= https://publishup.uni-potsdam.de/files/51251/hecher_diss.pdf https://aclanthology.org/2025.findings-naacl.374.pdf https://cikm2024.org/proceedings/ https://ml-research.github.io/people/kkersting/ https://2025.naacl.org/program/accepted_papers/