Fortschritte bei kleinen Sprachmodellen zur Lösung komplexer mathematischer Aufgaben durch Microsofts rStar-Math

Kategorien:

No items found.

Freigegeben:

January 14, 2025

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Kleinere Sprachmodelle lösen komplexe mathematische Probleme dank Microsofts rStar-Math

Microsoft Research Asia hat eine neue Methode namens rStar-Math entwickelt, die es kleineren Sprachmodellen ermöglicht, komplexe mathematische Probleme zu lösen. Diese Modelle, die deutlich weniger Parameter als große Sprachmodelle aufweisen, erreichen damit eine Leistung, die mit der von größeren Systemen, wie beispielsweise OpenAIs o1-preview, vergleichbar ist oder diese sogar übertrifft. Dies eröffnet neue Möglichkeiten für den Einsatz von KI in Bereichen mit begrenzten Ressourcen.

Der Kern der Innovation: Monte Carlo Tree Search und Code-Verifikation

Im Zentrum von rStar-Math steht die Monte Carlo Tree Search (MCTS), eine Technik, die bereits in anderen KI-Systemen wie AlphaZero von Google Deepmind erfolgreich eingesetzt wurde. MCTS erforscht verschiedene Lösungswege und lernt aus den effektivsten. Der innovative Ansatz von rStar-Math kombiniert die MCTS-Methode mit der Generierung von Python-Code und natürlichsprachlichen Erklärungen. Für jeden Schritt muss das Modell sowohl seine Denkweise erläutern als auch funktionierenden Code schreiben, um den Ansatz zu validieren. Dieser "Code-augmented Chain-of-Thought"-Ansatz stellt sicher, dass mathematische Konzepte sowohl in Alltagssprache als auch in ausführbarem Code ausgedrückt werden, wobei der Code detaillierte Erklärungen als Kommentare enthält. Läuft der Code nicht korrekt, wird die Lösung verworfen – ein automatisiertes System zur Selbstverifikation.

Stärken und Grenzen des Ansatzes

Die Code-Verifikation ist gleichzeitig Stärke und Limitation von rStar-Math. Für mathematische Textaufgaben, bei denen Lösungen eindeutig verifiziert werden können, funktioniert der Ansatz hervorragend. Die Anwendung auf Aufgaben ohne klare richtig-falsch-Antworten, wie beispielsweise Textverständnis, gestaltet sich jedoch schwierig. Derzeit kann das System auch keine geometrischen Probleme bearbeiten, da die Verarbeitung visueller Informationen noch nicht implementiert ist. Die Forscher sehen jedoch Potenzial für diesen Ansatz in Programmieraufgaben und im Bereich des Common-Sense-Reasoning, wo ähnliche Verifikationsmechanismen greifen könnten.

Selbstlernen durch Selbsteinschätzung

rStar-Math nutzt ein spezielles Bewertungsmodell, das Process Preference Model (PPM), um jeden Lösungsschritt zu beurteilen. Anstatt einfache Ja-Nein-Entscheidungen zu treffen, lernt das System durch den Vergleich alternativer Lösungen und identifiziert so effektive Vorgehensweisen. Das Training erfolgt in vier Runden, beginnend mit 747.000 mathematischen Problemen. Sowohl das Hauptmodell als auch das Bewertungsmodell verbessern sich mit jeder Runde, da das System verifizierte Lösungen erstellt, die wiederum die nächste Modellgeneration trainieren. Mit jeder Runde bearbeitet das System komplexere Probleme und generiert bessere Lösungen. Der entscheidende Unterschied zu anderen Ansätzen besteht darin, dass das System aus seinen eigenen erfolgreichen Lösungen lernt, anstatt Antworten von größeren Sprachmodellen zu kopieren.

Effizienz und Rechenzeit: Ein Abwägungsprozess

Ähnlich wie OpenAIs o-Modelle benötigt rStar-Math zusätzliche Rechenzeit während der Inferenz, um alternative Lösungen auszuprobieren. Die Forscher haben untersucht, wie gut dieser "Test-Time Compute"-Ansatz für rStar-Math skaliert. Mit nur vier Lösungsversuchen übertrifft rStar-Math bereits o1-preview und nähert sich o1-mini an. Die Leistung verbessert sich weiter mit zunehmender Anzahl von Versuchen, bis zu 64 pro Problem. Der Nutzen variiert jedoch je nach Art des mathematischen Problems. Während sich die Verbesserungen bei MATH-, AIME- und Mathematik-Olympiade-Problemen bei etwa 64 Versuchen einpendeln, zeigen Aufgaben aus dem Bereich der Hochschulmathematik darüber hinaus weitere Fortschritte.

Die hohe Genauigkeit des Systems wird durch intensivere Verarbeitung erkauft. Neben dem schwierig zu generalisierenden Code-Verifikationssystem stellt dies eine weitere Limitation von rStar-Math dar. Die Notwendigkeit, Dutzende von Lösungsversuchen pro Problem auszuführen und zu bewerten, macht den Prozess zeit- und rechenintensiv.

Ausblick und Bedeutung für die KI-Forschung

Trotz dieser Einschränkungen betonen die Forscher, dass rStar-Math aufzeigt, wie kleine Sprachmodelle ihre eigenen hochwertigen Trainingsdaten erstellen und sich selbst verbessern können. Sie erwarten noch bessere Ergebnisse mit anspruchsvolleren mathematischen Problemen als Trainingsdaten. Die Entwicklung von rStar-Math fügt sich in Microsofts Strategie ein, kleinere und effizientere KI-Modelle zu entwickeln, um Entwicklungs- und Betriebskosten zu senken. Das rStar-Math-Team plant, seinen Code und seine Daten mit der Forschungsgemeinschaft zu teilen.

Bibliographie Guan, Xinyu, et al. "rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking." arXiv preprint arXiv:2501.04519 (2025). Franzen, Carl. "Microsoft’s new rStar-Math technique upgrades small models to outperform OpenAI’s o1-preview at math problems." VentureBeat, 9 Jan. 2025, venturebeat.com/ai/microsofts-new-rstar-math-technique-upgrades-small-models-to-outperform-openais-o1-preview-at-math-problems/. Razzaq, Asif. "Microsoft AI Introduces rStar-Math: A Self-Evolved System 2 Deep Thinking Approach that Significantly Boosts the Math Reasoning Capabilities of Small LLMs." MarkTechPost, 10 Jan. 2025, www.marktechpost.com/2025/01/10/microsoft-ai-introduces-rstar-math-a-self-evolved-system-2-deep-thinking-approach-that-significantly-boosts-the-math-reasoning-capabilities-of-small-llms/. "Microsoft r* math: small llms can master math reasoning." Medium, medium.com/data-science-in-your-pocket/microsoft-rstar-math-small-llms-can-master-math-reasoning-ab9c8d0259a3. Warren, Tom. "Microsoft says r* math 'rival or surpass' OpenAI o1." Windows Central, 10 Jan. 2025, www.windowscentral.com/software-apps/microsoft-says-rstar-math-rival-or-surpass-openai-o1. "Microsoft's r* math: redefining the capabilities of small language models." Medium, medium.com/@wired.insights/microsofts-rstar-math-redefining-the-capabilities-of-small-language-models-d9ff813c2318. Mariam. "Stable Point Aware 3D, Cosmos, Autonomous game characters and Digits by Nvidia, Qwen Chat, Hailuo's Subject Reference, rStar-Math, Text-to-Video gen with Transparency, Cohere's North, STAR, & more." AI Brews, 10 Jan. 2025, aibrews.substack.com/p/stable-point-aware-3d-cosmos-autonomous.