Verbesserung der mathematischen Ableitungsfähigkeiten von KI-Modellen durch neue Forschungsansätze

Kategorien:

No items found.

Freigegeben:

March 20, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Die Entwicklung von KI-Systemen, die mathematische Objekte präzise ableiten können, ist entscheidend für die Fortschritte in MINT-Bereichen.
Traditionelle Evaluierungsmethoden für mathematisches und wissenschaftliches Denken bei Sprachmodellen sind oft auf vereinfachte Antwortformate beschränkt.
Neue Forschungsansätze konzentrieren sich auf die Generierung von Trainingsdaten und Benchmarks für die Ableitung mathematischer Objekte, wie die "Principia Suite".
LLM-Judges und Verifizierer spielen eine zentrale Rolle bei der Verbesserung der Ableitungsfähigkeiten, insbesondere durch On-Policy-Judge-Training.
Durch On-Policy-Training kann die Testzeitaggregation skaliert werden, was zu einer verbesserten Leistung bei bestehenden numerischen und Multiple-Choice-Fragen führt.
Die Forschung zeigt, dass Modelle wie Qwen3-235B und o3 auf neuen Benchmarks Schwierigkeiten haben, während spezifische Trainingsrezepte signifikante Verbesserungen und eine formatübergreifende Generalisierung ermöglichen.

Die Fähigkeit von Künstlicher Intelligenz (KI), komplexe mathematische Objekte präzise abzuleiten, stellt eine fundamentale Anforderung für zahlreiche Anwendungen in den Bereichen Mathematik, Ingenieurwesen, Naturwissenschaften und Technik (MINT) dar. In diesen Disziplinen mündet logisches Denken oft in formal strukturierte Ausdrücke, deren Korrektheit und Ableitbarkeit von entscheidender Bedeutung sind. Aktuelle Evaluierungsmethoden für das mathematische und wissenschaftliche Denken von Sprachmodellen (Large Language Models, LLMs) sind jedoch häufig auf vereinfachte Antwortformate wie numerische Werte oder Multiple-Choice-Fragen beschränkt. Dies liegt primär an der einfacheren automatisierten Bewertung dieser Formate.

Aktuelle Herausforderungen in der mathematischen Ableitung durch LLMs

Die Limitation auf vereinfachte Antwortformate birgt das Risiko, dass die tatsächlichen Fähigkeiten von LLMs im komplexen mathematischen Denken möglicherweise nicht vollständig erfasst werden. Ein Modell, das eine korrekte numerische Antwort liefert, könnte dies durch eine fehlerhafte Herangehensweise erreicht haben. Umgekehrt könnte ein Modell mit einem korrekten Denkprozess, aber einem kleinen Berechnungsfehler, als unzureichend bewertet werden. Dies verdeutlicht die Notwendigkeit robusterer Methoden zur Bewertung und Verbesserung der mathematischen Ableitungsfähigkeiten von LLMs, die über die reine Ergebnisprüfung hinausgehen.

Neue Forschungsbeiträge zur Verbesserung des mathematischen Denkens

Jüngste Forschungsarbeiten, wie die von Aggarwal et al. (2026), adressieren diese Herausforderungen mit einem dreigliedrigen Ansatz:

Entwicklung neuer Trainingsdaten und Benchmarks: Es wird eine neue Suite von Trainingsdaten und Benchmarks, bekannt als "Principia Suite", eingeführt. Diese ist speziell darauf ausgelegt, die Ableitung mathematischer Objekte zu bewerten und zu trainieren. Solche spezialisierten Datensätze sind essenziell, um Modelle für die Feinheiten formaler mathematischer Argumentation zu sensibilisieren.
Optimierte Trainingsrezepte mit LLM-Judges und Verifizierern: Die Forschung konzentriert sich auf die Entwicklung von Trainingsrezepten, die den Einsatz von leistungsstarken LLM-Judges und Verifizierern umfassen. Hierbei hat sich gezeigt, dass das sogenannte "On-Policy-Judge-Training" die Leistung signifikant steigert. Dies bedeutet, dass die Bewertung der Zwischenschritte und des gesamten Ableitungsprozesses durch weitere Sprachmodelle erfolgt, die als kritische Instanzen fungieren.
Skalierung der Testzeitaggregation durch On-Policy-Training: Ein weiterer wichtiger Beitrag ist die Demonstration, wie On-Policy-Training genutzt werden kann, um die Testzeitaggregation zu skalieren. Dies führt zu einer Verbesserung der Ergebnisse bei bestehenden numerischen und Multiple-Choice-Fragen und zeigt eine formatübergreifende Generalisierungsfähigkeit der Denkfähigkeiten.

On-Policy Reward Modeling und Testzeitaggregation im Detail

Das Konzept des On-Policy Reward Modeling beinhaltet, dass das Belohnungsmodell (Reward Model) während des Trainings kontinuierlich anhand der aktuellen Politik (Policy) des generierenden Modells aktualisiert wird. Dies ermöglicht eine dynamischere und präzisere Rückmeldung, die sich an die sich entwickelnden Fähigkeiten des LLM anpasst. Im Kontext mathematischer Ableitungen bedeutet dies, dass nicht nur die Endlösung, sondern auch die einzelnen Schritte und die logische Konsistenz des gesamten Lösungswegs bewertet werden.

Die Testzeitaggregation (Test-Time Aggregation) bezieht sich auf die Praxis, während der Inferenzphase mehrere Lösungsvorschläge für eine Aufgabe zu generieren und diese dann zu aggregieren oder auszuwählen, um eine robustere und genauere finale Antwort zu erhalten. Durch On-Policy-Training kann dieser Prozess optimiert werden, indem das Modell lernt, qualitativ hochwertigere Zwischenschritte und vielfältigere, aber dennoch korrekte Lösungswege zu produzieren, die dann effektiver aggregiert werden können.

Herausforderungen und Fortschritte

Es hat sich gezeigt, dass selbst leistungsstarke Modelle wie Qwen3-235B und o3 Schwierigkeiten mit der "Principia Suite" haben. Dies unterstreicht die Komplexität der Aufgaben und die Notwendigkeit spezialisierter Trainingsansätze. Die entwickelten Trainingsrezepte konnten jedoch signifikante Verbesserungen erzielen, nicht nur auf den neuen Benchmarks, sondern auch bei herkömmlichen numerischen und Multiple-Choice-Aufgaben. Dieser Erfolg deutet auf eine verbesserte formatübergreifende Generalisierungsfähigkeit der Denkfähigkeiten hin, was ein wichtiger Schritt in Richtung robusterer und vielseitigerer KI-Systeme ist.

Verwandte Forschungsarbeiten und Perspektiven

Die Forschung im Bereich der Prozess-Belohnungsmodelle (Process Reward Models, PRMs) hat in den letzten Jahren an Bedeutung gewonnen. PRMs zielen darauf ab, die Zwischenschritte in Denkprozessen von Large Language Models (LLMs) zu bewerten und zu korrigieren. Dies ist besonders relevant für mathematische Aufgaben, wo Fehler in frühen Schritten weitreichende Konsequenzen haben können. Studien wie "The Lessons of Developing Process Reward Models in Mathematical Reasoning" von Zhang et al. (2025) beleuchten die Herausforderungen bei der Datenannotation und Evaluierung von PRMs und schlagen Mechanismen zur Verbesserung der Modellleistung und Dateneffizienz vor.

Ein weiterer vielversprechender Ansatz ist das "Retrieval-Augmented Process Reward Model (Retrieval-PRM)" von Zhu et al. (2025). Dieses Modell nutzt einen zweistufigen, retrieval-erweiterten Mechanismus, um Probleme mit Out-of-Distribution-Daten (OOD) effektiv zu adressieren. Durch das Abrufen semantisch ähnlicher Fragen und Schritte als "Warm-up" verbessert Retrieval-PRM die Fähigkeit, Zielschritte zu bewerten und die Generalisierung sowie die Konsistenz des Denkens über verschiedene Modelle und Problemtypen hinweg zu erhöhen.

Im Bereich der multimodalen mathematischen Argumentation zeigt die Arbeit von Luo et al. (2025) mit "Unlocking Multimodal Mathematical Reasoning via Process Reward Model" vielversprechende Ergebnisse. Sie stellen URSA vor, ein dreistufiges Trainingsframework, das die mathematischen Fähigkeiten von Multimodalen Large Language Models (MLLMs) verbessert, indem es Prozess-Belohnungsmodelle integriert und einen hochwertigen multimodalen Datensatz (MMathCoT-1M) erstellt.

Die "Reward Reasoning Models (RRMs)" von Guo (2025) sind speziell darauf ausgelegt, einen bewussten Denkprozess vor der Generierung finaler Belohnungen auszuführen. Durch Chain-of-Thought-Reasoning nutzen RRMs zusätzliche Rechenleistung zur Testzeit für komplexe Anfragen, bei denen die geeigneten Belohnungen nicht sofort ersichtlich sind. Dies ermöglicht eine adaptive Verbesserung der Belohnungsgenauigkeit.

Einige Studien, wie "Rubrics as Rewards: Reinforcement Learning Beyond Verifiable Domains" von Gunjal et al. (2025), untersuchen den Einsatz von Rubriken als Belohnungssignale für Reinforcement Learning in Bereichen, die über eindeutig verifizierbare Ergebnisse hinausgehen. Dies ist besonders relevant für Aufgaben, bei denen die Bewertung auf nuancierten, multikriteriellen Urteilen basiert.

Die Notwendigkeit, den gesamten Denkprozess zu prüfen, wurde auch von Lightman et al. (2023) in "Let's Verify Step by Step" betont. Sie zeigen, dass Prozess-Supervision die Out-of-Distribution-Generalisierung signifikant verbessert und zu zuverlässigeren Modellen führt, die Probleme aus komplexen Datensätzen lösen können.

Schließlich untersucht "Direct Reasoning Optimization: Constrained RL with Token-Level Dense Reward and Rubric-Gated Constraints for Open-ended Tasks" von Xu et al. (2025) einen Ansatz, der token-level dichte Belohnungen mit rubrikgesteuerten Einschränkungen kombiniert. Dies ermöglicht es, die Qualität des Denkens in offenen Aufgaben zu optimieren und gleichzeitig sicherzustellen, dass die generierten Antworten grundlegende Aufgabenanforderungen erfüllen.

Diese vielfältigen Forschungsansätze zeigen die aktive Entwicklung und das Potenzial von fortschrittlichen Belohnungsmodellen und Trainingsstrategien, um die mathematischen und logischen Denkfähigkeiten von KI-Modellen stetig zu verbessern.

Fazit

Die Fortschritte in der Entwicklung von LLMs für das präzise Ableiten mathematischer Objekte sind von großer Bedeutung. Durch die Einführung spezialisierter Benchmarks, optimierter Trainingsrezepte mit LLM-Judges und der Skalierung der Testzeitaggregation wird ein Weg geebnet, um die Fähigkeiten dieser Modelle in MINT-Bereichen substanziell zu erweitern. Dies verspricht nicht nur eine verbesserte Leistung bei komplexen mathematischen Aufgaben, sondern auch eine höhere Zuverlässigkeit und Vertrauenswürdigkeit der KI-Systeme in kritischen Anwendungen.

Bibliography

- Aggarwal, P., Ghazvininejad, M., Kim, S., Kulikov, I., Lanchantin, J., Li, X., Li, T., Liu, B., Neubig, G., Ovalle, A., Saha, S., Sukhbaatar, S., Welleck, S., Weston, J., Whitehouse, C., Williams, A., Xu, J., Yu, P., Yuan, W., Zhang, J., & Zhao, W. (2026). Reasoning over mathematical objects: on-policy reward modeling and test time aggregation. Hugging Face. - Guo, J. (2025). Reward Reasoning Model. Hugging Face. - Gunjal, A., Wang, A., Lau, E., Nath, V., He, Y., Liu, B., & Hendryx, S. M. (2025). Rubrics as Rewards: Reinforcement Learning Beyond Verifiable Domains. OpenReview. - Lightman, H., Kosaraju, V., Burda, Y., Edwards, H., Baker, B., Lee, T., Leike, J., Schulman, J., Sutskever, I., & Cobbe, K. (2023). Let’s Verify Step by Step. OpenAI. - Luo, R., Zheng, Z., Wang, L., Wang, Y., Ni, X., Lin, Z., Jiang, S., Yu, Y., Shi, C., Chu, R., Zeng, J., & Yang, Y. (2025). Unlocking Multimodal Mathematical Reasoning via Process Reward Model. NeurIPS. - Xu, Y., Chakraborty, T., Sharma, S., Nunes, L., Sharma, S., Drakos Demopulos, K., Kıcıman, E., Lu, S., & Chandra, R. (2025). Direct Reasoning Optimization: Constrained RL with Token-Level Dense Reward and Rubric-Gated Constraints for Open-ended Tasks. arXiv. - Zhang, Z., Zheng, C., Wu, Y., Zhang, B., Lin, R., Yu, B., Liu, D., Zhou, J., & Lin, J. (2025). The Lessons of Developing Process Reward Models in Mathematical Reasoning. arXiv. - Zhu, J., Zheng, C., Lin, J., Du, K., Wen, Y., Yu, Y., Wang, J., & Zhang, W. (2025). Retrieval-Augmented Process Reward Model for Generalizable Mathematical Reasoning. ACL Anthology.