Große Sprachmodelle (LLMs) beeindrucken durch ihre Fähigkeiten im komplexen Schlussfolgern. Doch wie gut können sie in Multi-Agenten-Systemen (MAS) zusammenarbeiten, wenn sie – ähnlich wie natürliche Schwärme – unter strengen Bedingungen agieren müssen? Diese Frage steht im Zentrum aktueller Forschung, die das Potenzial von LLMs für dezentrale Koordination und Schwarmintelligenz auslotet.
Bisherige Benchmarks bilden die Herausforderungen dezentraler Koordination, die sich aus unvollständigen räumlich-zeitlichen Informationen ergeben, oft nur unzureichend ab. Ein neues Benchmark-System namens SwarmBench soll diese Lücke schließen und die Schwarmintelligenz von LLMs systematisch bewerten. Die Besonderheit: Die LLMs agieren als dezentrale Agenten in einer konfigurierbaren 2D-Gitterumgebung und müssen sich primär auf lokale sensorische Eingaben (k x k Sichtfeld) und lokale Kommunikation verlassen.
SwarmBench umfasst fünf grundlegende MAS-Koordinationsaufgaben, die die Agenten unter diesen restriktiven Bedingungen bewältigen müssen. Die Aufgaben simulieren verschiedene Szenarien, in denen Kooperation und Koordination entscheidend sind. Um die Leistung der LLMs zu messen, wurden neue Metriken für die Effektivität der Koordination und die Analyse der emergenten Gruppendynamik entwickelt. Diese Metriken erlauben eine differenzierte Bewertung der Fähigkeiten der LLMs in den verschiedenen Aufgaben.
Erste Tests mit führenden LLMs im Zero-Shot-Setting – also ohne vorheriges Training auf die spezifischen Aufgaben – zeigen signifikante Leistungsunterschiede. Während einige LLMs bereits erste Ansätze von Koordination zeigen, offenbaren die Ergebnisse auch Schwierigkeiten bei der robusten Planung und Strategiebildung unter Unsicherheit in diesen dezentralen Szenarien. Insbesondere die Beschränkung auf lokale Informationen stellt eine große Herausforderung dar.
SwarmBench wird als offenes und erweiterbares Toolkit zur Verfügung gestellt. Es basiert auf einem anpassbaren und skalierbaren physikalischen System mit definierten mechanischen Eigenschaften und beinhaltet Umgebungen, Prompts, Bewertungsskripte und die generierten experimentellen Datensätze. Dies soll die reproduzierbare Forschung im Bereich der LLM-basierten MAS-Koordination und der theoretischen Grundlagen von Embodied MAS fördern.
Die Bewertung von LLMs unter schwarmähnlichen Bedingungen ist entscheidend, um ihr Potenzial für zukünftige dezentrale Systeme voll auszuschöpfen. SwarmBench bietet Forschern ein wertvolles Werkzeug, um die Grenzen der aktuellen LLMs auszuloten und die Entwicklung von robusteren und effektiveren Algorithmen für die dezentrale Koordination voranzutreiben.
Bibliographie: - Ruan, K., Huang, M., Wen, J.-R., & Sun, H. (2025). Benchmarking LLMs' Swarm intelligence. *arXiv preprint arXiv:2505.04364*. - https://huggingface.co/papers/2505.04364 - https://huggingface.co/papers - https://arxiv.org/abs/2502.09933 - https://arxiv.org/abs/2410.07166 - https://proceedings.neurips.cc/paper_files/paper/2024/file/b631da756d1573c24c9ba9c702fde5a9-Paper-Datasets_and_Benchmarks_Track.pdf - https://openreview.net/pdf?id=L0oSfTroNE - https://www.researchgate.net/publication/388094928_Dynamic_Intelligence_Assessment_Benchmarking_LLMs_on_the_Road_to_AGI_with_a_Focus_on_Model_Confidence - https://papers.cool/arxiv/2501.07572 - https://github.com/zhangxjohn/LLM-Agent-Benchmark-List - https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5239555