Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Fähigkeit großer Sprachmodelle (LLMs), menschliche Sprache zu verarbeiten und Aufgaben zu erfüllen, für die sie nicht explizit trainiert wurden, hat in den letzten Jahren erhebliches Interesse geweckt. Insbesondere im Bereich der Chemie und Materialwissenschaften wird intensiv erforscht, wie diese Modelle das Potenzial haben, die Forschung und Entwicklung zu transformieren. Eine aktuelle Studie, die im Rahmen des ChemBench-Frameworks durchgeführt wurde, bietet nun detaillierte Einblicke in die Leistungsfähigkeit von LLMs beim chemischen Schlussfolgern und im Vergleich zu menschlichen Fachexperten. Die Ergebnisse zeigen sowohl beeindruckende Fortschritte als auch deutliche Limitationen auf, die für eine effektive Integration von KI in chemische Prozesse von Bedeutung sind.
Um die chemischen Fähigkeiten von LLMs systematisch zu bewerten, wurde das ChemBench-Framework entwickelt. Es umfasst einen Korpus von 2.788 Frage-Antwort-Paaren, die aus vielfältigen Quellen, darunter Universitätsprüfungen und semi-automatisch generierte Aufgaben aus chemischen Datenbanken, zusammengestellt wurden. Die Fragen decken ein breites Spektrum chemischer Themen ab – von der allgemeinen Chemie bis hin zu spezialisierten Bereichen wie der anorganischen oder analytischen Chemie. Jede Frage ist zudem nach den erforderlichen Fähigkeiten (Wissen, Schlussfolgern, Rechnen, Intuition) und dem Schwierigkeitsgrad klassifiziert. Dies ermöglicht eine nuancierte Bewertung der Modellfähigkeiten.
Ein wesentliches Merkmal von ChemBench ist die Berücksichtigung der Besonderheiten wissenschaftlicher Texte. Chemische Formeln, Einheiten oder Gleichungen werden semantisch annotiert, um Modellen eine spezifische Verarbeitung zu ermöglichen. Da viele LLM-Systeme lediglich Textvervollständigungen und keine Rohmodellausgaben bereitstellen, ist ChemBench darauf ausgelegt, mit diesen finalen Textausgaben zu arbeiten. Dies ist insbesondere für den Einsatz von tool-augmentierten Systemen relevant, die externe Werkzeuge wie Such-APIs oder Code-Executoren nutzen, um ihre Fähigkeiten zu erweitern.
Die Auswertung der führenden LLMs auf dem ChemBench-Korpus zeigt eine bemerkenswerte Gesamtleistung. Insbesondere das Modell o1-preview übertraf in der Studie die besten menschlichen Chemiker im Durchschnitt um fast das Doppelte. Auch andere Modelle zeigten eine bessere Leistung als der durchschnittliche menschliche Experte. Hervorzuhebend ist dabei, dass auch Open-Source-Modelle wie Llama-3.1-405B-Instruct eine Wettbewerbsfähigkeit gegenüber proprietären Spitzenmodellen demonstrierten.
Trotz dieser überzeugenden Ergebnisse offenbaren sich bei genauerer Betrachtung der Leistung pro Thema und Fähigkeit deutliche Limitationen:
Wissensintensive Fragen: Modelle zeigten Schwierigkeiten bei Fragen, die ein tiefes, faktenbasiertes Wissen erfordern, das oft in spezialisierten Datenbanken (z.B. PubChem, Gestis) zu finden ist und nicht unbedingt aus wissenschaftlichen Publikationen abgeleitet werden kann. Dies deutet auf Verbesserungspotenzial durch Training mit spezialisierteren Datenquellen oder die Integration mit solchen Datenbanken hin.
Chemisches Schlussfolgern: Insbesondere bei Aufgaben, die komplexes Schlussfolgern über molekulare Strukturen erfordern, wie die Vorhersage der Anzahl von Signalen in einem NMR-Spektrum, waren die Modelle weniger erfolgreich. Die Performance korrelierte hier nicht mit der Komplexität der Moleküle, was darauf hindeutet, dass die Modelle möglicherweise nicht in der erwarteten Weise über Strukturen schlussfolgern, sondern sich eher auf die Nähe zu Trainingsdaten verlassen.
Einschätzung der eigenen Sicherheit und Präferenzen: Ein weiteres Defizit zeigte sich bei der Fähigkeit der Modelle, ihre eigene Vertrauenswürdigkeit einzuschätzen oder menschliche Präferenzen (z.B. bei der Auswahl von Molekülen für die Wirkstoffentwicklung) zu bewerten. Die Korrelation zwischen der geschätzten Schwierigkeit und der tatsächlichen Korrektheit der Antworten war oft gering, was bei sicherheitsrelevanten Anwendungen zu irreführenden Ergebnissen führen könnte.
Themenspezifische Unterschiede: Während Modelle in allgemeiner und technischer Chemie hohe Punktzahlen erreichten, schnitten sie in Bereichen wie Toxizität und Sicherheit oder analytischer Chemie deutlich schlechter ab. Dies wird teilweise durch in APIs integrierte Sicherheitsmechanismen beeinflusst, die Modelle daran hindern, als unsicher eingestufte Antworten zu geben.
Die Ergebnisse der ChemBench-Studie haben weitreichende Implikationen. Einerseits bestätigen sie die beeindruckenden Fähigkeiten von LLMs, die in vielen chemischen Bereichen bereits menschliche Experten übertreffen können. Dies eröffnet neue Möglichkeiten für die Automatisierung und Unterstützung in Forschung und Industrie.
Andererseits verdeutlichen die Limitationen, dass ein reines Auswendiglernen von Fakten oder das Lösen von Standardproblemen, wie sie in Lehrbüchern vorkommen, nicht ausreicht. Die Chemie erfordert kritisches Denken und ein tiefes Verständnis von Prinzipien. Die Studie legt nahe, dass die traditionelle Chemieausbildung und -prüfung überdacht werden muss, um den Fokus stärker auf kritisches Schlussfolgern zu legen, da LLMs in der Faktenwiedergabe und der Problembearbeitung basierend auf großen Datenmengen den Menschen weiterhin übertreffen werden.
Für die Entwicklung zukünftiger KI-Systeme in der Chemie bedeutet dies, dass der Fokus auf die Verbesserung der Schlussfolgerungsfähigkeiten und die Integration mit spezialisierten Wissensquellen liegen sollte. Zudem ist die Entwicklung besserer Mensch-Modell-Interaktionsframeworks entscheidend, insbesondere da Modelle ihre eigenen Grenzen und Unsicherheiten noch nicht zuverlässig kommunizieren können. Das ChemBench-Framework soll hierfür als Grundlage dienen, um Systeme zu entwickeln, die dem Ziel, wie ein Chemiker zu denken, näherkommen.
Das Potenzial von LLMs in der Chemie ist unbestreitbar, doch die Reise zu einer umfassend denkenden und sicher agierenden KI ist noch nicht abgeschlossen. Präzise und objektive Bewertungen wie die von ChemBench sind dabei unerlässlich, um den Fortschritt zu messen und die Entwicklung in die richtige Richtung zu lenken.
Bibliography - Mirza, A., Alampara, N., Kunchapu, S. et al. A framework for evaluating the chemical knowledge and reasoning abilities of large language models against the expertise of chemists. Nat Chem 17, 1027–1034 (2025). https://doi.org/10.1038/s41557-025-01815-x - [2510.16880] Chem-R: Learning to Reason as a Chemist - arXiv. (2022, February 15). https://arxiv.org/abs/2510.16880 - Chem-R: Learning to Reason as a Chemist - arXiv. (2022, February 15). https://arxiv.org/html/2510.16880v1 - Hugging Face. (2025, October 21). Daily Papers. https://huggingface.co/papers - Learning to reason with LLMs | OpenAI. (2024, September 12). OpenAI. https://openai.com/index/learning-to-reason-with-llms/ - Paper page - Structured Chemistry Reasoning with Large Language Models. (2024, January 24). Hugging Face. https://huggingface.co/papers/2311.09656 - Paper page - Training a Scientific Reasoning Model for Chemistry. (2025, June 24). Hugging Face. https://huggingface.co/papers/2506.17238 - Structured Chemistry Reasoning with Large Language Models. (n.d.). https://ozyyshr.github.io/StructChem/Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen