Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die fortschreitende Entwicklung von Künstlicher Intelligenz, insbesondere im Bereich großer Sprachmodelle (LLMs), eröffnet neue Möglichkeiten für die Optimierung alltäglicher Prozesse. Ein vielversprechendes Anwendungsfeld ist die Routenplanung, wo LLM-basierte Agenten das Potenzial haben, die menschliche Mobilität durch natürliche Sprachinteraktion und werkzeuggestützte Entscheidungsfindung zu revolutionieren. Die systematische Bewertung solcher Agenten in realen Mobilitätsszenarien stellt jedoch eine erhebliche Herausforderung dar, bedingt durch die Vielfalt der Routing-Anforderungen, die nicht-deterministische Natur von Kartendiensten und die begrenzte Reproduzierbarkeit von Testergebnissen.
Um diesen Herausforderungen zu begegnen, wurde ein neuer, skalierbarer Benchmark namens MobilityBench entwickelt. Dieser Benchmark zielt darauf ab, eine standardisierte und reproduzierbare Methode zur Bewertung der Leistungsfähigkeit von LLM-basierten Routenplanungs-Agenten in realitätsnahen Umgebungen zu etablieren. MobilityBench basiert auf einer umfangreichen Sammlung anonymisierter Nutzeranfragen, die von Amap, einem führenden Kartendienst, gesammelt wurden. Diese Daten decken ein breites Spektrum von Routenplanungsabsichten in zahlreichen Städten weltweit ab, was die Relevanz und Anwendbarkeit des Benchmarks in verschiedenen geografischen Kontexten unterstreicht.
Ein Kernmerkmal von MobilityBench ist der Einsatz eines deterministischen API-Replay-Sandboxes. Diese Umgebung eliminiert die Variabilität, die typischerweise bei der Interaktion mit Live-Diensten auftritt, und ermöglicht so eine präzise und reproduzierbare Ende-zu-Ende-Bewertung der Agenten. Dies ist entscheidend, um die Auswirkungen von Modelländerungen oder Algorithmusverbesserungen objektiv messen zu können.
Das Bewertungsprotokoll von MobilityBench ist mehrdimensional angelegt und konzentriert sich auf die Gültigkeit der Ergebnisse. Ergänzt wird dies durch detaillierte Analysen des Verständnisses von Anweisungen, der Planungsqualität, der effektiven Nutzung von Werkzeugen und der Gesamteffizienz der Agenten. Dieser umfassende Ansatz ermöglicht eine tiefgehende Analyse des Verhaltens und der Leistungsmerkmale der getesteten Modelle.
Die Anwendung von MobilityBench zur Bewertung verschiedener LLM-basierter Routenplanungs-Agenten in unterschiedlichen realen Mobilitätsszenarien hat aufschlussreiche Ergebnisse geliefert. Es zeigt sich, dass aktuelle Modelle bei grundlegenden Informationsabfragen und standardmäßigen Routenplanungsaufgaben eine kompetente Leistung erbringen. Dies umfasst beispielsweise die Ermittlung der schnellsten Route zwischen zwei Punkten oder die Abfrage von Verkehrsinformationen.
Allerdings offenbaren die Analysen auch deutliche Schwächen bei der präferenzbasierten Routenplanung. Situationen, in denen Nutzer spezifische, oft komplexe Präferenzen angeben – wie das Vermeiden von Autobahnen, die Berücksichtigung bestimmter Sehenswürdigkeiten oder die Optimierung nach persönlichen Vorlieben wie "die landschaftlich schönste Route" –, stellen die Modelle vor erhebliche Schwierigkeiten. Dies deutet auf einen wesentlichen Verbesserungsbedarf in der Personalisierung von Mobilitätsanwendungen hin, wo das Verständnis und die Integration nuancierter Nutzerpräferenzen von entscheidender Bedeutung sind.
Die Veröffentlichung der MobilityBench-Daten, des zugehörigen Bewertungstoolkits und der umfassenden Dokumentation ist ein wichtiger Schritt zur Förderung der Forschung und Entwicklung in diesem Bereich. Durch die Bereitstellung einer transparenten und zugänglichen Plattform können Forscher und Entwickler weltweit die Leistungsfähigkeit ihrer Routenplanungs-Agenten objektiv vergleichen und weiterentwickeln. Dies ist insbesondere für B2B-Zielgruppen relevant, die an der Implementierung und Optimierung von KI-gestützten Mobilitätslösungen interessiert sind.
Die Erkenntnisse aus MobilityBench tragen dazu bei, die aktuellen Grenzen von LLM-Agenten in komplexen, realen Mobilitätsszenarien aufzuzeigen. Gleichzeitig bieten sie eine klare Richtschnur für zukünftige Forschungsrichtungen, insbesondere im Hinblick auf die Verbesserung des Verständnisses von Nutzerpräferenzen und die Entwicklung robusterer Planungsalgorithmen. Die Arbeit unterstreicht die Notwendigkeit, über grundlegende Routenplanungsfunktionen hinauszugehen und sich auf die Entwicklung von Systemen zu konzentrieren, die in der Lage sind, die vielfältigen und oft subtilen Anforderungen menschlicher Mobilität umfassend zu adressieren.
Die kontinuierliche Weiterentwicklung solcher Benchmarks ist entscheidend, um den Fortschritt im Bereich der KI-gestützten Mobilität voranzutreiben und sicherzustellen, dass die entwickelten Lösungen den komplexen Anforderungen der realen Welt gerecht werden. Die offene Verfügbarkeit der Ressourcen von MobilityBench kann hierbei als Katalysator wirken und die Zusammenarbeit innerhalb der Forschungsgemeinschaft stärken.
Bibliography: - Song, Z., Zhang, J., Qin, C., Wang, C., Chen, C., Xu, L., Liu, K., Chu, X., & Zhu, H. (2026). MobilityBench: A Benchmark for Evaluating Route-Planning Agents in Real-World Mobility Scenarios. arXiv preprint arXiv:2602.22638. - AMAP-ML. (2026). AMAP-ML/MobilityBench. GitHub. https://github.com/AMAP-ML/MobilityBench - Hugging Face. (2026). Daily Papers - Hugging Face. https://huggingface.co/papers/2602.22638 - Exa. (2026). Replan.city. https://replan.city/ - Heakl, A., Shaaban, Y. S., Takáč, M., Lahlou, S., & Iklassov, Z. (2025). SVRPBench: A Realistic Benchmark for Stochastic Vehicle Routing Problem. arXiv preprint arXiv:2505.21887v2. - Ma, Q., Guo, X., Zhong, W., He, Z., Su, Z., Ma, W., & Zhong, R. (2026). City-scale high-resolution traffic datasets with refined networks for hierarchical traffic control. Scientific Data. https://www.nature.com/articles/s41597-026-06892-2 - Feng, S., Zhu, H., Sun, H., Yan, X., He, L., Yang, J., Su, G., Li, B., Li, S., Wang, L., Shen, S., & Liu, H. X. (2026). Breaking through safety performance stagnation in autonomous vehicles with dense learning. Nature Communications. https://www.nature.com/articles/s41467-026-69761-xLernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen