Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die rapide Entwicklung von Künstlicher Intelligenz, insbesondere im Bereich der grossen Sprachmodelle (LLMs), führt zu stetig komplexeren Anwendungsszenarien. Um den Fortschritt dieser Modelle angemessen zu bewerten, sind umfassende und realitätsnahe Benchmarks unerlässlich. Eine aktuelle Forschungsarbeit mit dem Titel "ProfBench: Multi-Domain Rubrics requiring Professional Knowledge to Answer and Judge" widmet sich genau dieser Herausforderung. Sie stellt einen neuartigen Benchmark vor, der darauf abzielt, die Fähigkeiten von LLMs in professionellen Domänen präzise zu messen.
Bisherige Evaluationsmethoden für LLMs konzentrierten sich häufig auf Aufgaben, bei denen die Verifizierung von Antworten relativ einfach ist, wie beispielsweise in Mathematik, Programmierung oder bei einfachen Frage-Antwort-Formaten. Viele reale Anwendungen erfordern jedoch, dass LLMs professionelle Dokumente verarbeiten, Informationen synthetisieren und detaillierte Berichte erstellen können. Solche Aufgaben erfordern oft ein tiefgreifendes Fachwissen und kontextuelles Verständnis, das über die Fähigkeiten traditioneller Benchmarks hinausgeht.
ProfBench wurde entwickelt, um diese Lücke zu schliessen. Der Benchmark konzentriert sich auf offene, dokumentenbasierte professionelle Aufgaben, die in der Praxis von Experten ausgeführt werden. Dies ermöglicht eine Bewertung, die der Komplexität realer professioneller Arbeitsabläufe gerecht wird.
ProfBench umfasst über 3000 von Experten entworfene Antwort-Kriterien-Paare, die sich auf 40 Aufgaben in vier spezifischen professionellen Domänen verteilen. Diese Domänen wurden bewusst gewählt, um ein breites Spektrum an anspruchsvollem Fachwissen abzudecken:
Diese Auswahl gewährleistet, dass die bewerteten Modelle nicht nur allgemeines Wissen, sondern auch spezifisches, domänenspezifisches Fachwissen und die Fähigkeit zur Synthese und Langformanalyse unter Beweis stellen müssen.
Ein zentraler Bestandteil von ProfBench ist die Entwicklung eines robusten und gleichzeitig kostengünstigen LLM-Judges. Die Bewertung offener Antworten durch Menschen ist zeitaufwendig und teuer. Um dies zu umgehen, wurde ein automatisierter Bewertungsmechanismus entwickelt, der die folgenden Merkmale aufweist:
Die Evaluierung von State-of-the-Art LLMs mit ProfBench lieferte aufschlussreiche Ergebnisse. Selbst führende Modelle, wie das in der Studie genannte GPT-5-high, erreichten lediglich eine Gesamtleistung von 65,9 %. Dies unterstreicht, dass selbst die fortschrittlichsten Modelle noch erhebliche Herausforderungen bei der Bewältigung realistischer professioneller Arbeitsabläufe haben, die eine komplexe Synthese und Langformanalyse erfordern.
Zudem wurden deutliche Leistungsunterschiede zwischen proprietären und Open-Weight-Modellen festgestellt. Diese Disparitäten geben Einblicke in die Stärken und Schwächen verschiedener Modellarchitekturen und Trainingsstrategien. Die Studie hebt auch die Bedeutung von "Extended Thinking" hervor, also der Fähigkeit der Modelle, komplexe Denkprozesse über längere Zeiträume zu simulieren, um anspruchsvolle Aufgaben in professionellen Domänen zu lösen.
Die Ergebnisse von ProfBench zeigen klar auf, dass im Bereich der LLM-Entwicklung noch erhebliches Potenzial besteht, insbesondere wenn es um die Bewältigung domänenspezifischer, anspruchsvoller Aufgaben geht. Zukünftige Forschungsarbeiten könnten sich auf folgende Aspekte konzentrieren:
ProfBench stellt einen wichtigen Schritt dar, um die Bewertung von LLMs in professionellen Kontexten zu standardisieren und zu verbessern. Durch seinen Fokus auf komplexe, domänenspezifische Aufgaben und die Entwicklung eines kostengünstigen, bias-reduzierten LLM-Judges bietet der Benchmark wertvolle Einblicke in die aktuellen Fähigkeiten und Limitationen von KI-Modellen. Die erzielten Ergebnisse verdeutlichen, dass trotz beeindruckender Fortschritte noch erhebliche Anstrengungen erforderlich sind, um LLMs auf das Niveau menschlicher Experten in anspruchsvollen Berufsfeldern zu heben. Für Unternehmen, die auf KI-Lösungen setzen, liefert ProfBench wichtige Informationen zur Auswahl und Weiterentwicklung von Modellen, die den hohen Anforderungen professioneller Arbeitsabläufe gerecht werden.
Die bereitgestellten Daten und der Code auf HuggingFace und GitHub ermöglichen es der gesamten Forschungsgemeinschaft, diese Erkenntnisse zu nutzen und zur Weiterentwicklung von LLMs beizutragen.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen