Neuer Benchmark zur Bewertung der Zuverlässigkeit von LLM-Agenten im Automobilsektor

Kategorien:

No items found.

Freigegeben:

February 9, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

CAR-bench ist ein neuartiger Benchmark zur Bewertung der Zuverlässigkeit von LLM-Agenten unter realen Unsicherheiten, insbesondere im Automobilbereich.
Der Benchmark testet die Konsistenz, den Umgang mit Unsicherheiten und das Bewusstsein für Fähigkeiten von LLM-Agenten in mehrtägigen, werkzeugnutzenden Interaktionen.
Es wurden neue Aufgabentypen wie "Hallucination Tasks" (Prüfung des Bewusstseins für fehlende Fähigkeiten) und "Disambiguation Tasks" (Auflösung von Mehrdeutigkeiten) eingeführt.
Die Ergebnisse zeigen, dass selbst fortschrittliche LLM-Modelle erhebliche Lücken bei der konsistenten Aufgabenerfüllung und beim Umgang mit Unsicherheiten aufweisen.
"Thinking Models" (Modelle mit explizitem Denkprozess) zeigen eine bessere Leistung, insbesondere bei komplexeren Aufgaben, aber auch sie erreichen keine durchgängige Zuverlässigkeit.
Es besteht ein Spannungsverhältnis zwischen der Erfüllung von Benutzeranfragen und der Einhaltung von Richtlinien, was zu vorzeitigen Aktionen und Fabrikationen führen kann.
Latenz und Kosten sind entscheidende Faktoren für den praktischen Einsatz von LLM-Agenten.

Die Integration von Large Language Models (LLMs) in kritische, nutzerzentrierte Anwendungen wie Sprachassistenten in Fahrzeugen stellt hohe Anforderungen an deren Zuverlässigkeit und Robustheit. Während bestehende Benchmarks oft die reine Aufgabenerfüllung unter idealisierten Bedingungen messen, vernachlässigen sie die Herausforderungen, die sich aus realen Unsicherheiten und komplexen Interaktionen ergeben. Eine aktuelle Studie, vorgestellt unter anderem von Johannes Kirmayr von der BMW Group Research und der Universität Augsburg, adressiert diese Lücke mit der Einführung von CAR-bench – einem spezialisierten Benchmark für die Bewertung von LLM-Agenten im Automobilbereich.

Die Notwendigkeit eines neuen Bewertungsrahmens

Bestehende Benchmarks für LLM-Agenten konzentrieren sich häufig auf die Fähigkeit, Aufgaben unter idealen Bedingungen zu lösen. Sie gehen davon aus, dass alle notwendigen Informationen vollständig und eindeutig vorliegen. In der Praxis, insbesondere in dynamischen Umgebungen wie einem Fahrzeug, sind Benutzeranfragen jedoch oft unvollständig, mehrdeutig oder beziehen sich auf Situationen, in denen Werkzeuge oder Informationen fehlen könnten. Solche Szenarien erfordern von Agenten nicht nur die Fähigkeit zur Problemlösung, sondern auch ein ausgeprägtes Bewusstsein für die eigenen Grenzen und eine konsistente Strategie zur Auflösung von Unsicherheiten oder zur Kommunikation von Einschränkungen.

Die Automobilbranche dient als prädestiniertes Testfeld für diese Herausforderungen. Sprachgesteuerte Assistenten müssen in der Lage sein, spontane, oft umgangssprachliche Anfragen von nicht-technischen Benutzern zu verarbeiten. Dabei müssen sie eine Vielzahl fahrzeugspezifischer APIs nutzen, strenge Sicherheitsrichtlinien einhalten und gleichzeitig die Ablenkung des Fahrers minimieren. Fehler wie Halluzinationen (das Erfinden von Informationen) oder das Ignorieren von Sicherheitsvorschriften können hier schwerwiegende Folgen haben.

CAR-bench: Aufbau und innovative Aufgabentypen

CAR-bench ist darauf ausgelegt, die Konsistenz, den Umgang mit Unsicherheiten und das Bewusstsein für Fähigkeiten in multizugigen, werkzeugnutzenden LLM-Agenten zu bewerten. Der Benchmark umfasst sechs Kernkomponenten:

Ein LLM-simulierter Benutzer, der realistische, multizugige Anfragen generiert.
Ein LLM-Agent, der an 19 domänenspezifische Richtlinien gebunden ist.
Ein umfassender Werkzeugsatz mit 58 miteinander verbundenen Tools zur Informationsbeschaffung und Aktionsausführung (z.B. Navigation, Produktivität, Ladefunktionen, Fahrzeugsteuerung).
Eine interaktive Umgebung mit dynamischen Zustandsvariablen (z.B. Klimaeinstellungen, Fensterpositionen).
Feste Kontextvariablen (z.B. Datum, Uhrzeit, Standort, Fahrzeugspezifikationen).
Kontextuelle Datenbanken (z.B. Navigationsdaten für 48 europäische Städte, über 130.000 Points of Interest, Kalender- und Kontaktdaten).

Über die standardmäßige Aufgabenerfüllung hinaus führt CAR-bench zwei neuartige Aufgabentypen ein, die speziell auf reale Herausforderungen abzielen:

Hallucination Tasks

Diese Aufgaben testen, ob Agenten fehlende Fähigkeiten oder Daten erkennen und kommunizieren, anstatt Informationen zu fabrizieren. Zum Beispiel wird ein benötigtes Tool, ein Parameter oder ein Tool-Ergebnis entfernt, wodurch die Benutzeranfrage unerfüllbar wird. Ein erfolgreicher Agent muss dies explizit anerkennen.

Disambiguation Tasks

Hier werden Basistasks um kontrollierte Mehrdeutigkeiten erweitert, die der Agent entweder durch interne Informationsbeschaffung oder durch Klärungsfragen an den Benutzer auflösen muss. Dies erfordert eine Meta-Reasoning-Fähigkeit: die Erkennung von Mehrdeutigkeiten und die Auswahl der informativsten Aktion zu deren Auflösung.

Bewertungsmetriken und Konsistenzmessung

CAR-bench verwendet binäre Belohnungsmetriken für jede Aufgabe, wobei eine Aufgabe nur als gelöst gilt, wenn alle relevanten Metriken erfüllt sind. Wichtig ist die Einführung von zwei Metriken zur Messung der Einsatzbereitschaft:

Pass^k (Konsistenz): Eine Aufgabe wird nur dann als erfolgreich bewertet, wenn sie in allen k Versuchen gelöst wurde. Für CAR-bench wurde k=3 verwendet.
Pass@k (Potenzial): Eine Aufgabe wird als erfolgreich bewertet, wenn sie in mindestens einem von k Versuchen gelöst wurde.

Ein großer Unterschied zwischen Pass^k und Pass@k deutet auf ein hohes Potenzial hin, das jedoch noch nicht konsistent abgerufen werden kann, was für den realen Einsatz problematisch ist.

Experimentelle Ergebnisse und Schlüsselbefunde

Die Studie evaluierte verschiedene proprietäre und Open-Source LLM-Modelle, darunter GPT-5, Claude-Opus-4.5 und Gemini-2.5-Flash. Die wichtigsten Erkenntnisse sind:

1. Die Konsistenzlücke

Es zeigte sich eine erhebliche Diskrepanz zwischen dem Potenzial zur Aufgabenlösung (Pass@3) und der zuverlässigen Reproduktion (Pass^3) über alle Modelle hinweg. Besonders ausgeprägt war diese Lücke bei den Disambiguation Tasks. Selbst fortschrittliche Reasoning-Modelle wie GPT-5 fielen hier von 68% Pass@3 auf 36% Pass^3 ab, was auf Schwierigkeiten bei der konsistenten Auflösung von Mehrdeutigkeiten hindeutet.

2. Modellfähigkeiten

Modelle mit aktivierten Denkprozessen ("thinking-enabled models") zeigten in allen Aufgabentypen eine überlegene Leistung. Der Leistungsunterschied zwischen denkenden und nicht-denkenden Modellen vergrößerte sich mit zunehmender Komplexität der Aufgaben. Dies unterstreicht die Bedeutung von Reasoning-Fähigkeiten für die Bewältigung von Grenz- und Richtlinienfällen. Fehleranalysen zeigten, dass nicht-denkende Modelle häufiger gegen Richtlinien verstießen oder notwendige Operationen ausließen.

3. Aufgabenschwierigkeit

Die Leistung nahm systematisch über die verschiedenen Aufgabentypen ab. Basistasks zeigten die höchsten Erfolgsraten. Hallucination Tasks erwiesen sich als anspruchsvoller und deckten die Schwäche nicht-denkender Modelle auf, Einschränkungen anzuerkennen. Disambiguation Tasks stellten die größte Herausforderung dar; kein Modell erreichte hier mehr als 50% Pass^3. Dies verdeutlicht eine kritische Lücke in der Fähigkeit aktueller Agenten, mit unvollständigen Szenarien oder mehrdeutigen Benutzeranfragen umzugehen.

Interessanterweise zeigten Modelle wie Claude-Opus-4.5 und GPT-5 bei Basistasks vergleichbare Leistungen, offenbarten aber komplementäre Schwächen. Claude-Opus-4.5 schnitt bei Hallucination Tasks deutlich schlechter ab, während GPT-5 bei Disambiguation Tasks Schwierigkeiten hatte.

Diskussion: Grundlegende Einschränkungen und praktische Implikationen

Die Analyse der Fehlerbilder identifizierte fünf Hauptfehlerkategorien:

(E1) Vorzeitige Aktionen: Ausführung einer Aktion, bevor notwendige Informationen eingeholt wurden.
(E2) Richtlinienverstöße: Ignorieren expliziter Domänenbeschränkungen.
(E3) Logische Fehler: Ziehen falscher Schlussfolgerungen aus verfügbaren Informationen.
(E4) Ausführungsfehler: Korrekte Planung, aber fehlerhafte Ausführung oder falsche Parameter.
(E5) Fabrikation: Entweder implizites Verschweigen fehlender Informationen (E5a) oder aktives Halluzinieren nicht existierender Fähigkeiten (E5b).

Spannungsverhältnis zwischen Erfüllung und Compliance

Modelle neigen dazu, die Erfüllung von Benutzeranfragen über die Einhaltung von Anweisungen und Richtlinien zu priorisieren. Dies zeigte sich in vorzeitigen Aktionen und Richtlinienverstößen. Bei Hallucination Tasks, wo die Erfüllung unmöglich ist, tendierten Modelle zum Fabrizieren von Antworten, anstatt Einschränkungen zuzugeben. Dieses Verhalten spiegelt die Erkenntnisse über systemische Verzerrungen in aktuellen Trainingsregimen wider, bei denen Modelle für plausible Abschlüsse über transparente Fehler belohnt werden.

Reasoning als Teillösung

Explizites Reasoning in denkenden Modellen führte zu messbaren, aber begrenzten Verbesserungen. Es reduzierte logische und Ausführungsfehler sowie schwerwiegende Richtlinienverstöße. Jedoch konnte es das Problem vorzeitiger Aktionen, das bei Disambiguation Tasks dominierte, nicht wesentlich mindern. Trotz Richtlinien, die eine interne Auflösung vorschreiben, fragten Modelle oft den Benutzer oder führten "Best-Guess"-Aktionen aus, bevor sie vollständige Umgebungsdaten gesammelt hatten.

Praktische Implikationen

Neben der reinen Leistung sind Latenz und Kosten entscheidende Faktoren für die Auswahl eines LLM. Hohe Latenzzeiten beeinträchtigen die Benutzerzufriedenheit, insbesondere in interaktiven Agentenumgebungen. Die Kosten begrenzen ebenfalls große Implementierungen, da geringe Unterschiede pro Anfrage sich bei Skalierung summieren. Die Studie zeigte, dass die leistungsfähigsten Modelle oft zu langsam oder teuer sind, während schnellere, günstigere Modelle bei komplexen Aufgaben unterdurchschnittlich abschneiden.

Fazit und Ausblick

CAR-bench bietet einen fundierten Benchmark zur Bewertung der Fähigkeiten von LLM-Agenten, die für den zuverlässigen Einsatz in realen Szenarien erforderlich sind: präzise Werkzeugnutzung, Befolgung von Anweisungen, Management von Unsicherheiten und ehrliche Kommunikation von Systemgrenzen. Die Ergebnisse unterstreichen, dass trotz erheblicher Fortschritte in der LLM-Entwicklung noch erhebliche Herausforderungen bei der Erzielung konsistenter und selbstbewusster Agenten bestehen.

Zukünftige Forschungsarbeiten sollten sich auf die Entwicklung von Architekturen, Prompting-Techniken und Trainingsmethoden konzentrieren, die diese identifizierten Lücken systematisch schließen können. Dies beinhaltet die Verbesserung des Verständnisses von Modellgrenzen, die Entwicklung robusterer Strategien zur Auflösung von Mehrdeutigkeiten und die Stärkung der Richtlinienkonformität, selbst unter dem Druck der Aufgabenerfüllung. Nur so können LLM-Agenten das volle Potenzial in sicherheitskritischen und nutzerzentrierten Anwendungen wie dem Automobilbereich entfalten.

Bibliographie

Kirmayr, J., Stappen, L., & André, E. (2026). CAR-bench: Evaluating the Consistency and Limit-Awareness of LLM Agents under Real-World Uncertainty. alphaXiv.
AI Research Roundup. (2026). CAR-bench: Testing LLM Agent Limits & Uncertainty. YouTube.
BMW LLM Research Group. (2026). Hugging Face.
Li, Y., Miao, Y., Ding, X., Krishnan, R., & Padman, R. (2025). Firm or Fickle? Evaluating Large Language Models Consistency in Sequential Interactions. arXiv.
Potamitis, N., Klein, L., & Arora, A. (2025). ReasonBENCH: Benchmarking the (In)Stability of LLM Reasoning. arXiv.
Liu, X., Yu, H., Zhang, H., et al. (2025). AgentBench: Evaluating LLMs as Agents. arXiv.
Anonymous Authors. (2026). CARL: Constraint-Aware Reinforcement Learning for Planning with LLMs. ICLR.
Yao, S., Shinn, N., Razavi, P., & Narasimhan, K. (2024). τ-Bench: a benchmark for tool-agent-user interaction in real-world domains. The Thirteenth International Conference on Learning Representations.
Kalai, A. T., Nachum, O., Vempala, S. S., & Zhang, E. (2025). Why language models hallucinate. arXiv.
Kobalczyk, K., Astorga, N., Liu, T., & van der Schaar, M. (2025). Active task disambiguation with LLMs. The Thirteenth International Conference on Learning Representations.
Strayer, D. L., Cooper, J. M., Turrill, J., Coleman, J. R., & Hopman, R. J. (2016). Talking to your car can drive you to distraction. Cognitive Research: Principles and Implications, 1(1), 16.
Ouyang, L., Wu, J., Jiang, X., et al. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35, 27730–27744.