Neubewertung des Open LLM Leaderboards durch Math-Verify

Kategorien:

No items found.

Freigegeben:

February 17, 2025

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Die Neubewertung des Open LLM Leaderboard mit Math-Verify

Das Open LLM Leaderboard auf Hugging Face ist ein zentraler Anlaufpunkt für den Vergleich von Open-Source Large Language Models (LLMs). Es bewertet die Leistung der Modelle anhand verschiedener Aufgaben, darunter auch mathematische Fähigkeiten. Bis vor kurzem gab es jedoch Schwierigkeiten bei der Bewertung der mathematischen Leistungen, was zu ungenauen und unfairen Vergleichen führte. Mit der Einführung von Math-Verify wurde das Leaderboard grundlegend überarbeitet und bietet nun robustere und verlässlichere Ergebnisse.

Die Herausforderungen der bisherigen mathematischen Bewertung

Die bisherige Bewertungsmethode für mathematische Aufgaben, genannt MATH-Hard, basierte auf 1324 Aufgaben des Hendrycks MATH-Datensatzes, die ein hohes Schwierigkeitsniveau aufwiesen (Level 5). Die Modelle erhielten fünf Beispiele als Teil des Prompts und mussten ihre Antwort in einem spezifischen Format abschließen: "Final answer is [ANSWER]. I hope it is correct.". Die Antwort wurde dann mit SymPy analysiert und mit der korrekten Lösung verglichen.

Dieses Verfahren führte zu mehreren Problemen. Erstens konnten viele Modelle das vorgegebene Antwortformat nicht einhalten und wurden daher fälschlicherweise als falsch bewertet, selbst wenn die mathematische Lösung korrekt war. Zweitens gab es Schwierigkeiten bei der Analyse der Antworten mit SymPy, da komplexe mathematische Ausdrücke, Matrizen oder Mengen nicht korrekt interpretiert wurden. Drittens fehlte die Unterstützung für Rundungen, numerische Auswertungen und Variablenzuweisungen, was zu weiteren Ungenauigkeiten führte.

Math-Verify: Eine Lösung für präzise mathematische Bewertungen

Math-Verify behebt die beschriebenen Probleme, indem es die Antworten der Modelle präziser analysiert und mit den korrekten Lösungen vergleicht. Die Integration von Math-Verify in das Leaderboard erforderte nur minimale Codeänderungen, ermöglichte jedoch eine umfassende Neubewertung aller 3751 eingereichten Modelle.

Die Auswirkungen dieser Änderung sind erheblich. Im Durchschnitt konnten die Modelle nach der Neubewertung 61 Aufgaben mehr lösen, was einer durchschnittlichen Verbesserung von 4,66 Punkten entspricht. Besonders große Verbesserungen zeigten sich in den Bereichen Algebra und Präalgebra, wo die Modelle im Durchschnitt 8,27 bzw. 6,93 Punkte mehr erzielten. In einigen Fällen verbesserten sich die Ergebnisse einzelner Modelle um fast 90 Punkte.

Verschiebungen im Leaderboard

Die Einführung von Math-Verify führte zu einer deutlichen Verschiebung der Rangliste im Leaderboard. Die AceMath-Modelle von Nvidia dominieren nun den MATH-Hard-Bereich, gefolgt von verschiedenen Qwen-Derivaten. Auch andere Modelle konnten ihre Position deutlich verbessern, teilweise um mehr als 200 Plätze.

Die Neubewertung zeigt, dass die Leistung einiger Modellfamilien, insbesondere Qwen und DeepSeek, zuvor deutlich unterschätzt wurde. Die Ergebnisse dieser Modelle haben sich nach der Einführung von Math-Verify mehr als verdoppelt bzw. verdreifacht.

Fazit

Math-Verify hat die Genauigkeit und Fairness der Bewertungen im Open LLM Leaderboard deutlich verbessert. Die Neubewertung bietet ein klareres Bild der tatsächlichen mathematischen Fähigkeiten der verschiedenen LLMs und ermöglicht einen aussagekräftigeren Vergleich. Entwickler und Forscher werden ermutigt, Math-Verify für ihre eigenen Evaluierungen zu verwenden, um zuverlässigere Ergebnisse zu erzielen.

Bibliography: https://huggingface.co/blog/math_verify_leaderboard https://www.reddit.com/r/LocalLLaMA/comments/1ipd232/fixing_open_llm_leaderboard_with_mathverify/ https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard/discussions/1016 https://github.com/EleutherAI/lm-evaluation-harness/issues/2539 https://www.shakudo.io/blog/demystifying-llm-leaderboards-what-you-need-to-know https://arxiv.org/html/2409.17972v1 https://x.com/nathanhabib1011/status/1858894766756302958 https://www.acorn.io/resources/learning-center/open-llm-leaderboard/ https://www.evidentlyai.com/llm-guide/llm-benchmarks https://www.linkedin.com/posts/guilhermepenedo_current-models-are-actually-much-better-at-activity-7287507777512443905-TKae