KI für Ihr Unternehmen – Jetzt Demo buchen

Diskrepanzen in der wissenschaftlichen Intelligenz von KI-Modellen: Neue Evaluierungstools im Fokus

Kategorien:
No items found.
Freigegeben:
January 7, 2026

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

1
🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

2
🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

3
⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

4
🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

5
👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Inhaltsverzeichnis

    mindverse studio – Ihre Plattform für digitale Effizienz

    Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.
    Mehr über Mindverse Studio erfahren

    Das Wichtigste in Kürze

    • Neue Open-Source-Evaluierungstools wie SciEvalKit, SciEval und ScienceAgentBench zeigen Diskrepanzen zwischen der allgemeinen und wissenschaftlichen Intelligenz von KI-Modellen auf.
    • Modelle, die bei allgemeinen Benchmarks hohe Punktzahlen erzielen, fallen bei wissenschaftlichen Aufgaben oft unter 60 %.
    • Die wissenschaftliche Intelligenz umfasst sieben Kernkompetenzen, darunter multimodale Wahrnehmung, symbolisches Denken und Hypothesengenerierung.
    • Besonders schwach sind KI-Modelle bei der Code-Generierung und dem symbolischen Denken in wissenschaftlichen Kontexten.
    • Proprietäre Modelle wie Gemini-3-Pro zeigen eine ausgewogenere Leistung, während Open-Source-Modelle wie Qwen3-Max in spezifischen Bereichen wie der Code-Generierung führend sind.
    • Die Forschung schlägt vor, den Fokus von reiner Skalierung auf die Verbesserung der Ausführungslogik, des symbolischen Denkens und der Integration visueller Daten mit wissenschaftlicher Semantik zu verlagern.

    Der Unterschied zwischen allgemeiner und wissenschaftlicher KI-Intelligenz

    Die Fortschritte im Bereich der Künstlichen Intelligenz (KI) sind weitreichend und beeindruckend. Moderne KI-Modelle erzielen in allgemeinen Benchmarks zunehmend hohe Punktzahlen, was ihre Fähigkeiten in Bereichen wie Sprachverständnis und logischem Denken unterstreicht. Eine neue Analyse, ermöglicht durch Open-Source-Evaluierungstools, beleuchtet jedoch eine signifikante Lücke: Während KI-Modelle bei allgemeinen Tests oft Werte von über 90 % erreichen, sinkt ihre Leistungsfähigkeit bei rigorosen wissenschaftlichen Aufgaben häufig unter 60 %.

    Die Herausforderung der wissenschaftlichen KI-Evaluation

    Die Evaluation von KI-Modellen im wissenschaftlichen Kontext stellt eine besondere Herausforderung dar. Wissenschaftliche Intelligenz erfordert nicht nur faktisches Wissen, sondern auch die Fähigkeit zur multimodalen Wahrnehmung, zum symbolischen Denken, zur Hypothesengenerierung und zur präzisen Code-Generierung. Diese Fähigkeiten gehen über das hinaus, was in vielen allgemeinen KI-Benchmarks getestet wird. Um diese Lücke zu schließen, wurden spezialisierte Evaluierungstools entwickelt, darunter SciEvalKit, SciEval und ScienceAgentBench.

    SciEvalKit: Ein umfassendes Evaluierungstool

    Das von Forschenden des Shanghai AI Lab und weiteren Mitwirkenden entwickelte SciEvalKit ist ein offenes, einheitliches Benchmarking-Toolkit. Es wurde konzipiert, um KI-Modelle in einem breiten Spektrum wissenschaftlicher Disziplinen und Aufgaben zu bewerten. Im Gegensatz zu allgemeinen Evaluierungsplattformen konzentriert sich SciEvalKit auf sieben Kernkompetenzen der wissenschaftlichen Intelligenz:

    • Wissenschaftliche multimodale Wahrnehmung: Erkennen und Lokalisieren wissenschaftlich relevanter Entitäten aus multimodalen Eingaben.
    • Wissenschaftliches multimodales Verständnis: Extrahieren und Interpretieren strukturierter wissenschaftlicher Informationen aus visuellen Elementen.
    • Wissenschaftliches multimodales Denken: Integration visueller und textueller Modalitäten für kohärente, mehrstufige wissenschaftliche Schlussfolgerungen.
    • Wissenschaftliches Wissensverständnis: Bewertung des Verständnisses domänenspezifischer Konzepte und Faktenbeziehungen.
    • Wissenschaftliche Code-Generierung: Übersetzung wissenschaftlicher Beschreibungen in ausführbaren Code.
    • Wissenschaftliches symbolisches Denken: Manipulation von Gleichungen, physikalischen Gesetzen und strukturierten Notationen.
    • Wissenschaftliche Hypothesengenerierung: Formulierung plausibler Hypothesen unter offenen Fragestellungen.

    Dieses Toolkit deckt sechs wissenschaftliche Hauptbereiche ab, darunter Physik, Chemie, Astronomie, Materialwissenschaften, Geowissenschaften und Biowissenschaften. Es basiert auf von Experten kuratierten wissenschaftlichen Benchmarks, die aus realen, domänenspezifischen Datensätzen stammen und authentische wissenschaftliche Herausforderungen widerspiegeln.

    Weitere Benchmarks für wissenschaftliche KI

    Neben SciEvalKit gibt es weitere Initiativen zur Bewertung wissenschaftlicher KI-Fähigkeiten:

    • SciEval: Ein Benchmark, der etwa 18.000 objektive und einige subjektive Fragen aus Chemie, Physik und Biologie umfasst. Er bewertet das Verständnis und die Generierungsfähigkeiten von LLMs in vier Aspekten: Grundwissen, Wissensanwendung, wissenschaftliche Berechnung und Forschungsfähigkeit.
    • ScienceAgentBench: Dieser Benchmark konzentriert sich auf die rigorose Bewertung von Sprachagenten für datengesteuerte wissenschaftliche Entdeckungen. Er umfasst 102 Aufgaben aus 44 wissenschaftlichen Publikationen in vier Disziplinen, die von Fachexperten validiert wurden.
    • SciBench: Ein umfassender Benchmark, der die Problemlösungsfähigkeiten von LLMs auf Hochschulniveau in Mathematik, Chemie und Physik bewertet.
    • SciCUEval: Ein Datensatz zur Bewertung des wissenschaftlichen Kontextverständnisses in großen Sprachmodellen, der zehn domänenspezifische Unterdatensätze aus Biologie, Chemie, Physik, Biomedizin und Materialwissenschaften umfasst.

    Ergebnisse der Modell-Evaluation

    Die Evaluation führender großer Sprachmodelle (LLMs) und multimodaler großer Sprachmodelle (MLLMs) mittels SciEvalKit liefert wichtige Erkenntnisse über den aktuellen Stand der wissenschaftlichen KI-Fähigkeiten. Die Ergebnisse zeigen deutliche Leistungsunterschiede in den verschiedenen Dimensionen der wissenschaftlichen Intelligenz.

    Wichtige Leistungsmuster

    • Dominanz des Wissensverständnisses: Modelle erreichen die höchsten Punktzahlen konsequent im wissenschaftlichen Wissensverständnis. Spitzenreiter wie GPT-o3 erreichen 76,05 % und Gemini-3-Pro 66,06 %. Dies deutet auf eine starke Kompetenz im Faktenabruf und grundlegenden konzeptuellen Verständnis in wissenschaftlichen Bereichen hin.
    • Herausforderungen bei der Code-Generierung und dem symbolischen Denken: Diese Fähigkeiten stellen die größten Engpässe dar. Selbst führende Modelle tun sich hier schwer. Qwen3-Max erreicht die höchste Punktzahl bei der Code-Generierung mit 43,97 %, während Gemini-3-Pro beim symbolischen Denken mit 45,19 % führt. Dies unterstreicht grundlegende Einschränkungen im formalen Denken und der algorithmischen Implementierung.
    • Lücken bei multimodalen Fähigkeiten: Obwohl Modelle eine passable Leistung bei der wissenschaftlichen multimodalen Wahrnehmung zeigen, gibt es deutliche Rückgänge bei den Verständnis- und Denkfähigkeiten. Qwen3-VL-235B-A22B erreicht beispielsweise die höchste multimodale Wahrnehmung mit 72,29 %, zeigt aber eine erhebliche Verschlechterung bei nachfolgenden Denkaufgaben.

    Modellspezifische Erkenntnisse

    • Führung proprietärer Modelle: Gemini-3-Pro rangiert durchweg in mehreren Dimensionen am höchsten, insbesondere bei der Hypothesengenerierung (61,51 %) und zeigt das ausgewogenste Leistungsprofil. GPT-5 und GPT-o3 bilden eine wettbewerbsfähige Gruppe, die besonders bei Wissensverständnisaufgaben stark ist.
    • Wettbewerbsfähigkeit von Open-Source-Modellen: Qwen3-Max erweist sich als das stärkste Open-Source-Textmodell und erreicht in mehreren Dimensionen eine wettbewerbsfähige Leistung im Vergleich zu proprietären Systemen, insbesondere bei der Code-Generierung. Es zeigt jedoch eine geringe multimodale Leistung, was die Herausforderung der vereinheitlichten textlich-visuellen Argumentation verdeutlicht.
    • Fähigkeitsdiskriminierung: Code-Generierung und symbolisches Denken weisen die größte Leistungsstreuung zwischen den Modellen auf und dienen als hochselektive Fähigkeiten, die die Modellkomplexität deutlich differenzieren. Dies deutet darauf hin, dass diese Bereiche grundlegende Herausforderungen in aktuellen KI-Architekturen darstellen.

    Bedeutung und Implikationen für die Forschung

    SciEvalKit und ähnliche Tools adressieren kritische Einschränkungen in aktuellen KI-Evaluierungsmethoden und etablieren einen neuen Standard für die Bewertung wissenschaftlicher Intelligenz. Die Bedeutung dieser Tools erstreckt sich über mehrere Dimensionen der KI-Forschung und -Entwicklung.

    Standardisierung der wissenschaftlichen KI-Evaluation

    Durch die Bereitstellung eines einheitlichen, von Experten validierten Evaluierungsrahmens ermöglichen diese Tools Forschenden, von anekdotischen Belegen zu einer rigorosen, reproduzierbaren Bewertung der KI-Fähigkeiten in wissenschaftlichen Kontexten überzugehen. Diese Standardisierung erleichtert transparente Vergleiche zwischen Modellen und Forschungsgruppen und beschleunigt den Fortschritt durch ein gemeinsames Verständnis der Leistungsbenchmarks.

    Identifizierung kritischer Entwicklungsprioritäten

    Die Evaluationsergebnisse liefern klare Leitlinien für die zukünftige Modellentwicklung. Sie zeigen, dass Verbesserungen "weniger von reiner Skalierung als vielmehr von (i) ausführungsbewussten Codes, (ii) symbolischem und programmorientiertem Denken und (iii) einer stärkeren Integration visueller Verankerung mit wissenschaftlicher Semantik" erwartet werden. Diese Erkenntnis lenkt den Forschungsschwerpunkt auf grundlegende architektonische und Trainingsinnovationen und nicht auf einfache Parameterskalierung.

    Gemeinschaftsgetriebener Forschungsfortschritt

    Der Open-Source-Charakter und das explizite Modell der Gemeinschaftsbeiträge demokratisieren den Zugang zu hochwertiger wissenschaftlicher Evaluierungsinfrastruktur. Dieser Ansatz ermöglicht es verschiedenen Forschungsgruppen, Fachkenntnisse einzubringen, Ergebnisse zu validieren und die Fähigkeiten der Toolkits zu erweitern, wodurch ein kollaborativer Fortschritt in der KI für die Wissenschaft gefördert wird.

    Brücke zwischen allgemeiner KI und wissenschaftlicher Spezialisierung

    Die vorgestellten Tools adressieren die systematische Lücke zwischen allgemeinen KI-Fähigkeiten und den Anforderungen an die wissenschaftliche Problemlösung. Durch die Konzentration auf Kernkompetenzen und authentische Arbeitsabläufe in der Wissenschaft treiben sie die Entwicklung von KI-Systemen voran, die tatsächlich "wissenschaftlich intelligent" sind, anstatt nur oberflächliche Korrektheit bei isolierten Aufgaben zu zeigen.

    Die umfassende Evaluation zeigt, dass aktuelle fortschrittliche Modelle, obwohl sie in der allgemeinen Argumentation beeindrucken, erhebliche Herausforderungen bei der präzisen symbolischen Manipulation, dem mehrstufigen prozeduralen Denken und der spezialisierten multimodalen Integration bewältigen müssen, die für authentische wissenschaftliche Arbeit erforderlich sind. Dieses Ergebnis hat tiefgreifende Auswirkungen auf die Entwicklung von KI-Systemen, die zu bedeutsamen wissenschaftlichen Entdeckungen und zur Zusammenarbeit fähig sind.

    Fazit

    Die Diskrepanz zwischen der allgemeinen und der wissenschaftlichen Intelligenz von KI-Modellen ist ein zentrales Thema, das durch neue Open-Source-Evaluierungstools wie SciEvalKit, SciEval und ScienceAgentBench beleuchtet wird. Diese Tools bieten einen Rahmen, um die Fähigkeiten von KI in sieben Kernkompetenzen der wissenschaftlichen Intelligenz zu bewerten und zeigen, dass insbesondere die Code-Generierung und das symbolische Denken weiterhin große Herausforderungen darstellen. Die gewonnenen Erkenntnisse sind entscheidend für die zukünftige Entwicklung von KI, die als echter Partner in der wissenschaftlichen Forschung agieren kann.

    Die fortlaufende Forschung und Entwicklung in diesem Bereich wird sich darauf konzentrieren müssen, die architektonischen Grundlagen von KI-Modellen zu verbessern, um eine tiefere Integration von Fachwissen und eine präzisere Anwendung wissenschaftlicher Methoden zu ermöglichen. Die Open-Source-Natur dieser Evaluierungstools fördert dabei eine kollaborative Umgebung, die für den Fortschritt in der Künstlichen Intelligenz für die Wissenschaft unerlässlich ist.

    Bibliography - Wang, Y., Chen, Y., Li, S., Zhou, Y., Liu, B., Gao, H., ... & Bai, L. (2025). SciEvalKit: An Open-source Evaluation Toolkit for Scientific General Intelligence. arXiv preprint arXiv:2512.22334. - Sun, L., Han, Y., Zhao, Z., Ma, D., Shen, Z., Chen, B., Chen, L., & Yu, K. (2023). SciEval: A Multi-Level Large Language Model Evaluation Benchmark for Scientific Research. arXiv preprint arXiv:2308.13149. - Chen, Z., Chen, S., Ning, Y., Zhang, Q., Wang, B., Yu, B., ... & Sun, H. (2024). ScienceAgentBench: Toward Rigorous Assessment of Language Agents for Data-Driven Scientific Discovery. arXiv preprint arXiv:2410.05080. - Wang, X., Hu, Z., Lu, P., Zhu, Y., Zhang, J., Subramaniam, S., ... & Wang, W. (2023). SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models. arXiv preprint arXiv:2307.10635. - Yu, J., Tang, Y., Feng, K., Rao, M., Liang, L., Zhang, Z., ... & Chen, H. (2025). SciCUEval: A Comprehensive Dataset for Evaluating Scientific Context Understanding in Large Language Models. arXiv preprint arXiv:2505.15094. - GitHub - OpenDFM/SciEval: [AAAI 2024] SciEval: A Multi-Level Large Language Model Evaluation Benchmark for Scientific Research. (n.d.). Abgerufen am 22. Mai 2024, von https://github.com/OpenDFM/SciEval - GitHub - ComDec/ScienceEvals: An Evals based repo for LLM evaluation in scientific research. (n.d.). Abgerufen am 22. Mai 2024, von https://github.com/comdec/scienceevals - Liu, J. - CatalyzeX. (n.d.). Abgerufen am 22. Mai 2024, von https://www.catalyzex.com/author/Jiaqi%20Liu - An Open-source Evaluation Toolkit for Scientific General Intelligence. (n.d.). alphaXiv. Abgerufen am 22. Mai 2024, von https://www.alphaxiv.org/overview/2512.22334

    Artikel jetzt als Podcast anhören

    Kunden die uns vertrauen:
    Arise Health logoArise Health logoThe Paak logoThe Paak logoOE logo2020INC logoEphicient logo
    und viele weitere mehr!

    Bereit für den nächsten Schritt?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen