Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Integration von Large Language Models (LLMs) in kritische, nutzerzentrierte Anwendungen wie Sprachassistenten in Fahrzeugen stellt hohe Anforderungen an deren Zuverlässigkeit und Robustheit. Während bestehende Benchmarks oft die reine Aufgabenerfüllung unter idealisierten Bedingungen messen, vernachlässigen sie die Herausforderungen, die sich aus realen Unsicherheiten und komplexen Interaktionen ergeben. Eine aktuelle Studie, vorgestellt unter anderem von Johannes Kirmayr von der BMW Group Research und der Universität Augsburg, adressiert diese Lücke mit der Einführung von CAR-bench – einem spezialisierten Benchmark für die Bewertung von LLM-Agenten im Automobilbereich.
Bestehende Benchmarks für LLM-Agenten konzentrieren sich häufig auf die Fähigkeit, Aufgaben unter idealen Bedingungen zu lösen. Sie gehen davon aus, dass alle notwendigen Informationen vollständig und eindeutig vorliegen. In der Praxis, insbesondere in dynamischen Umgebungen wie einem Fahrzeug, sind Benutzeranfragen jedoch oft unvollständig, mehrdeutig oder beziehen sich auf Situationen, in denen Werkzeuge oder Informationen fehlen könnten. Solche Szenarien erfordern von Agenten nicht nur die Fähigkeit zur Problemlösung, sondern auch ein ausgeprägtes Bewusstsein für die eigenen Grenzen und eine konsistente Strategie zur Auflösung von Unsicherheiten oder zur Kommunikation von Einschränkungen.
Die Automobilbranche dient als prädestiniertes Testfeld für diese Herausforderungen. Sprachgesteuerte Assistenten müssen in der Lage sein, spontane, oft umgangssprachliche Anfragen von nicht-technischen Benutzern zu verarbeiten. Dabei müssen sie eine Vielzahl fahrzeugspezifischer APIs nutzen, strenge Sicherheitsrichtlinien einhalten und gleichzeitig die Ablenkung des Fahrers minimieren. Fehler wie Halluzinationen (das Erfinden von Informationen) oder das Ignorieren von Sicherheitsvorschriften können hier schwerwiegende Folgen haben.
CAR-bench ist darauf ausgelegt, die Konsistenz, den Umgang mit Unsicherheiten und das Bewusstsein für Fähigkeiten in multizugigen, werkzeugnutzenden LLM-Agenten zu bewerten. Der Benchmark umfasst sechs Kernkomponenten:
Über die standardmäßige Aufgabenerfüllung hinaus führt CAR-bench zwei neuartige Aufgabentypen ein, die speziell auf reale Herausforderungen abzielen:
Diese Aufgaben testen, ob Agenten fehlende Fähigkeiten oder Daten erkennen und kommunizieren, anstatt Informationen zu fabrizieren. Zum Beispiel wird ein benötigtes Tool, ein Parameter oder ein Tool-Ergebnis entfernt, wodurch die Benutzeranfrage unerfüllbar wird. Ein erfolgreicher Agent muss dies explizit anerkennen.
Hier werden Basistasks um kontrollierte Mehrdeutigkeiten erweitert, die der Agent entweder durch interne Informationsbeschaffung oder durch Klärungsfragen an den Benutzer auflösen muss. Dies erfordert eine Meta-Reasoning-Fähigkeit: die Erkennung von Mehrdeutigkeiten und die Auswahl der informativsten Aktion zu deren Auflösung.
CAR-bench verwendet binäre Belohnungsmetriken für jede Aufgabe, wobei eine Aufgabe nur als gelöst gilt, wenn alle relevanten Metriken erfüllt sind. Wichtig ist die Einführung von zwei Metriken zur Messung der Einsatzbereitschaft:
Ein großer Unterschied zwischen Pass^k und Pass@k deutet auf ein hohes Potenzial hin, das jedoch noch nicht konsistent abgerufen werden kann, was für den realen Einsatz problematisch ist.
Die Studie evaluierte verschiedene proprietäre und Open-Source LLM-Modelle, darunter GPT-5, Claude-Opus-4.5 und Gemini-2.5-Flash. Die wichtigsten Erkenntnisse sind:
Es zeigte sich eine erhebliche Diskrepanz zwischen dem Potenzial zur Aufgabenlösung (Pass@3) und der zuverlässigen Reproduktion (Pass^3) über alle Modelle hinweg. Besonders ausgeprägt war diese Lücke bei den Disambiguation Tasks. Selbst fortschrittliche Reasoning-Modelle wie GPT-5 fielen hier von 68% Pass@3 auf 36% Pass^3 ab, was auf Schwierigkeiten bei der konsistenten Auflösung von Mehrdeutigkeiten hindeutet.
Modelle mit aktivierten Denkprozessen ("thinking-enabled models") zeigten in allen Aufgabentypen eine überlegene Leistung. Der Leistungsunterschied zwischen denkenden und nicht-denkenden Modellen vergrößerte sich mit zunehmender Komplexität der Aufgaben. Dies unterstreicht die Bedeutung von Reasoning-Fähigkeiten für die Bewältigung von Grenz- und Richtlinienfällen. Fehleranalysen zeigten, dass nicht-denkende Modelle häufiger gegen Richtlinien verstießen oder notwendige Operationen ausließen.
Die Leistung nahm systematisch über die verschiedenen Aufgabentypen ab. Basistasks zeigten die höchsten Erfolgsraten. Hallucination Tasks erwiesen sich als anspruchsvoller und deckten die Schwäche nicht-denkender Modelle auf, Einschränkungen anzuerkennen. Disambiguation Tasks stellten die größte Herausforderung dar; kein Modell erreichte hier mehr als 50% Pass^3. Dies verdeutlicht eine kritische Lücke in der Fähigkeit aktueller Agenten, mit unvollständigen Szenarien oder mehrdeutigen Benutzeranfragen umzugehen.
Interessanterweise zeigten Modelle wie Claude-Opus-4.5 und GPT-5 bei Basistasks vergleichbare Leistungen, offenbarten aber komplementäre Schwächen. Claude-Opus-4.5 schnitt bei Hallucination Tasks deutlich schlechter ab, während GPT-5 bei Disambiguation Tasks Schwierigkeiten hatte.
Die Analyse der Fehlerbilder identifizierte fünf Hauptfehlerkategorien:
Modelle neigen dazu, die Erfüllung von Benutzeranfragen über die Einhaltung von Anweisungen und Richtlinien zu priorisieren. Dies zeigte sich in vorzeitigen Aktionen und Richtlinienverstößen. Bei Hallucination Tasks, wo die Erfüllung unmöglich ist, tendierten Modelle zum Fabrizieren von Antworten, anstatt Einschränkungen zuzugeben. Dieses Verhalten spiegelt die Erkenntnisse über systemische Verzerrungen in aktuellen Trainingsregimen wider, bei denen Modelle für plausible Abschlüsse über transparente Fehler belohnt werden.
Explizites Reasoning in denkenden Modellen führte zu messbaren, aber begrenzten Verbesserungen. Es reduzierte logische und Ausführungsfehler sowie schwerwiegende Richtlinienverstöße. Jedoch konnte es das Problem vorzeitiger Aktionen, das bei Disambiguation Tasks dominierte, nicht wesentlich mindern. Trotz Richtlinien, die eine interne Auflösung vorschreiben, fragten Modelle oft den Benutzer oder führten "Best-Guess"-Aktionen aus, bevor sie vollständige Umgebungsdaten gesammelt hatten.
Neben der reinen Leistung sind Latenz und Kosten entscheidende Faktoren für die Auswahl eines LLM. Hohe Latenzzeiten beeinträchtigen die Benutzerzufriedenheit, insbesondere in interaktiven Agentenumgebungen. Die Kosten begrenzen ebenfalls große Implementierungen, da geringe Unterschiede pro Anfrage sich bei Skalierung summieren. Die Studie zeigte, dass die leistungsfähigsten Modelle oft zu langsam oder teuer sind, während schnellere, günstigere Modelle bei komplexen Aufgaben unterdurchschnittlich abschneiden.
CAR-bench bietet einen fundierten Benchmark zur Bewertung der Fähigkeiten von LLM-Agenten, die für den zuverlässigen Einsatz in realen Szenarien erforderlich sind: präzise Werkzeugnutzung, Befolgung von Anweisungen, Management von Unsicherheiten und ehrliche Kommunikation von Systemgrenzen. Die Ergebnisse unterstreichen, dass trotz erheblicher Fortschritte in der LLM-Entwicklung noch erhebliche Herausforderungen bei der Erzielung konsistenter und selbstbewusster Agenten bestehen.
Zukünftige Forschungsarbeiten sollten sich auf die Entwicklung von Architekturen, Prompting-Techniken und Trainingsmethoden konzentrieren, die diese identifizierten Lücken systematisch schließen können. Dies beinhaltet die Verbesserung des Verständnisses von Modellgrenzen, die Entwicklung robusterer Strategien zur Auflösung von Mehrdeutigkeiten und die Stärkung der Richtlinienkonformität, selbst unter dem Druck der Aufgabenerfüllung. Nur so können LLM-Agenten das volle Potenzial in sicherheitskritischen und nutzerzentrierten Anwendungen wie dem Automobilbereich entfalten.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen