Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die rapide Entwicklung von Künstlicher Intelligenz, insbesondere im Bereich der Large Language Models (LLMs), wird oft durch Leistungskennzahlen aus sogenannten Benchmarks belegt. Diese Benchmarks dienen als Gradmesser für den Fortschritt und die Fähigkeiten von KI-Systemen. Eine aktuelle, umfassende internationale Studie wirft jedoch ein kritisches Licht auf die Zuverlässigkeit dieser Metriken. Sie zeigt auf, dass ein Großteil der existierenden LLM-Benchmarks erhebliche methodische Schwächen aufweist, die Zweifel an der Validität der gemessenen Fortschritte aufkommen lassen.
Ein Team von Forschenden des Oxford Internet Institute hat in Zusammenarbeit mit weiteren Institutionen 445 Benchmark-Studien von führenden KI-Konferenzen der Jahre 2018 bis 2024 analysiert. Das Ergebnis ist eine detaillierte Aufschlüsselung der Schwachstellen, die nahezu jede der untersuchten Benchmarks betreffen. Die Bewertung erfolgte durch 29 unabhängige Experten und umfasste Kriterien wie Definition, Stichprobenziehung, Datennutzung, statistische Analyse und die Diskussion der Validität.
Die Validität einer Benchmark ist entscheidend: Sie stellt sicher, dass ein Test tatsächlich das misst, was er vorgibt zu messen. Im Kontext von LLMs bedeutet dies, dass gute Ergebnisse die tatsächlich getestete Fähigkeit widerspiegeln müssen und nicht das Ergebnis von Testartefakten oder ungenauen Messungen sind.
Ein zentrales Problem, das die Studie aufzeigt, sind die oft vagen und inkonsistenten Definitionen dessen, was eine Benchmark eigentlich messen soll. Obwohl 78 Prozent der Benchmarks eine Definition ihrer Messziele angeben, sind fast die Hälfte davon unklar oder umstritten. Schlüsselbegriffe wie „Argumentation“, „Alignment“ oder „Sicherheit“ bleiben häufig undefiniert, was die Interpretation der Ergebnisse erschwert und ihre Verlässlichkeit untergräbt.
Des Weiteren zeigte sich, dass rund 61 Prozent der Benchmarks zusammengesetzte Fähigkeiten testen, wie etwa „agentisches Verhalten“, das die Erkennung von Absichten und die Generierung strukturierter Ausgaben kombiniert. Solche Unterskills werden selten separat evaluiert, was eine präzise Einschätzung der Modellleistungen behindert.
Ein weiterer Aspekt betrifft die Aufgabenstellungen selbst: 41 Prozent der Benchmarks nutzen künstliche Aufgaben, und 29 Prozent verlassen sich ausschließlich darauf. Nur etwa 10 Prozent der Evaluierungen basieren auf realitätsnahen Szenarien, die die tatsächliche Anwendung der Modelle widerspiegeln.
Die Stichprobenziehung stellt eine weitere Schwachstelle dar. Etwa 39 Prozent der Benchmarks verwenden Convenience Sampling, wobei Daten aufgrund ihrer leichten Verfügbarkeit ausgewählt werden, anstatt repräsentative Stichproben zu nutzen, die den realen Einsatz widerspiegeln würden. 12 Prozent der Benchmarks verlassen sich sogar ausschließlich auf diese Methode.
Auch die Wiederverwendung von Daten ist weit verbreitet. Rund 38 Prozent der Benchmarks nutzen Daten aus menschlichen Tests oder bestehenden Quellen erneut. Viele greifen zudem stark auf Datensätze aus anderen Benchmarks zurück. Dies kann zu verzerrten Ergebnissen führen, da Modelle möglicherweise nicht ihre Problemlösungsfähigkeiten unter Beweis stellen, sondern lediglich bereits Gelerntes wiedergeben (Data Contamination).
Ein Beispiel hierfür ist die Verwendung von Mathematikaufgaben aus rechnerfreien Prüfungen. Solche Aufgaben sind oft so konzipiert, dass sie einfache Arithmetik erfordern. Werden LLMs ausschließlich mit solchen Problemen getestet, lässt sich daraus nicht ableiten, wie sie bei komplexeren Berechnungen abschneiden.
Die statistische Analyse in Benchmarks ist ebenfalls unzureichend. Über 80 Prozent verwenden exakte Übereinstimmungswerte, doch nur 16 Prozent wenden statistische Tests an, um Modelle zu vergleichen. Die Forschenden betonen, dass aussagekräftige Evaluierungen robuste Statistiken und klare Unsicherheitsschätzungen erfordern.
Alternative Bewertungsmethoden sind selten: Nur 17 Prozent nutzen LLMs als Juroren und lediglich 13 Prozent verlassen sich auf menschliches Urteilsvermögen. Die meisten Benchmarks verzichten gänzlich auf Unsicherheitsschätzungen und statistische Tests, was die Zuverlässigkeit erheblich mindert.
Das Forschungsteam schlägt konkrete Maßnahmen zur Verbesserung vor:
Als Beispiel für Verbesserungspotenzial nennen die Forschenden den weit verbreiteten Mathematik-Benchmark GSM8K. Dieser soll mathematisches Denken auf Grundschulniveau testen, vermischt aber in der Praxis Leseverständnis und Logikfähigkeiten, ohne diese separat zu bewerten. Eine gründlichere Fehleranalyse und Kontaminationstests könnten hier die Aussagekraft der Benchmark erhöhen.
Der Fall Llama 4 von Meta dient als weiteres warnendes Beispiel. Metas neue Modelle zeigten zunächst gute Ergebnisse in Nutzer-Benchmarks, hatten jedoch erhebliche Schwierigkeiten bei Aufgaben mit langem Kontext. Später gab Meta zu, für den LMArena-Benchmark eine speziell angepasste Chat-Version verwendet zu haben, die auf menschliche Juroren optimiert war. Dies verdeutlicht, wie leicht Benchmark-Ergebnisse manipuliert werden können.
Trotz ihrer Mängel bleiben Benchmarks ein fundamentales Werkzeug in der KI-Forschung. Sie bieten einen Rahmen für die Verfolgung des Modellfortschritts und den Vergleich verschiedener Ansätze. Mit zunehmender Komplexität von LLMs und steigendem Innovationsdruck wachsen jedoch auch die Risiken, die von schwachen oder irreführenden Benchmarks ausgehen.
Ohne strengere Standards und vollständige Transparenz wird es zunehmend schwierig, echte Fortschritte von Resultaten zu unterscheiden, die lediglich die Tests "spielen". Für Unternehmen und Entwickler, die auf die Leistungsfähigkeit von LLMs angewiesen sind, bedeutet dies, Benchmarks kritisch zu hinterfragen und eigene, auf spezifische Anwendungsfälle zugeschnittene Evaluierungsmethoden zu entwickeln und anzuwenden. Die Fähigkeit, die tatsächlichen Kompetenzen von KI-Modellen zu beurteilen, ist entscheidend für den seriösen und effektiven Einsatz von KI-Technologien.
Bibliographie
- Kemper, J. (2025). Most LLM benchmarks are flawed, casting doubt on AI progress metrics, study finds. The Decoder. - Perlo, J. (2025). AI's capabilities may be exaggerated by flawed tests, study says. NBC News. - Claburn, T. (2025). AI benchmarks hampered by bad science - The Register. The Register. - OODA OG Analyst. (2025). AI's capabilities may be exaggerated by flawed tests, according to new study. OODA Loop. - Garcia, M. (2025). LLM benchmarks are broken — the first map of 283 tests shows why. Implicator AI. - Study identifies weaknesses in how AI systems are evaluated. (2025). Hacker News. - arXiv reCAPTCHA. (2022). arxiv.org. - Line Goes Up? Inherent Limitations of Benchmarks for Evaluating ... (2022). arxiv.org.Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen