Das Wichtigste in Kürze
- Terminal-basierte KI-Agenten erzielen bei der Unternehmensautomatisierung vergleichbare oder bessere Ergebnisse als komplexere GUI- und MCP-Agenten, oft zu deutlich geringeren Kosten.
- Die direkte Interaktion mit Plattform-APIs über die Befehlszeile bietet Flexibilität und Effizienz.
- Dokumentation kann hilfreich sein, wenn sie auf die Bedürfnisse des Agenten zugeschnitten ist, aber auch kontraproduktiv, wenn sie zu komplexen Strategien führt.
- Selbstgenerierte "Skills" oder Fähigkeiten verbessern die Erfolgsrate und reduzieren die Kosten, insbesondere auf weniger vertrauten Plattformen.
- Die Architektur von Terminal-Agenten, die auf stabilen, programmierbaren Schnittstellen basiert, erweist sich als robust und kosteneffizient.
Revolution in der Unternehmensautomatisierung: Terminal-Agenten übertreffen komplexe Systeme
Die Landschaft der Unternehmensautomatisierung durch Künstliche Intelligenz (KI) erlebt derzeit einen signifikanten Wandel. Eine aktuelle Studie, maßgeblich von ServiceNow-Forschenden durchgeführt, beleuchtet die überraschende Effektivität von terminalbasierten KI-Agenten im Vergleich zu komplexeren Architekturen. Die Ergebnisse legen nahe, dass robuste Basismodelle in Verbindung mit einfachen, programmatischen Schnittstellen oft ausreichen, um anspruchsvolle Unternehmensaufgaben effizient zu bewältigen.
Die Herausforderung der Unternehmensautomatisierung
Große Sprachmodelle (LLMs) haben sich von reinen Code-Vervollständigungsassistenten zu Agenten entwickelt, die in der Lage sind, komplexe, mehrstufige Aufgaben über verschiedene Softwaresysteme hinweg auszuführen. Im Unternehmenskontext bedeutet dies, dass LLM-gestützte Agenten zunehmend die Aufgabe übernehmen, Systemzustände zu erkennen, Geschäftsabläufe zu interpretieren und Aktionen auszuführen, die operative Daten modifizieren. Dies stellt hohe Anforderungen an die Zuverlässigkeit und Interaktionsfähigkeit der Agenten mit komplexen Plattformen.
Bislang dominierten zwei architektonische Ansätze: GUI-gesteuerte Agenten, die über grafische Benutzeroberflächen (GUIs) agieren, und Tool-augmentierte Agenten, die über Frameworks wie das Model Context Protocol (MCP) auf kuratierte Aktionsschemata zugreifen. Beide Ansätze führen jedoch Abstraktionsschichten zwischen dem Modell und der zugrunde liegenden Plattform ein, was mit Kompromissen verbunden ist. GUI-Agenten müssen lange, fehleranfällige Aktionsketten verarbeiten, die empfindlich auf Schnittstellenänderungen reagieren. Kuratierte Tool-Register vereinfachen zwar die Aufrufe, schränken aber die Ausdrucksfähigkeit auf vordefinierte Operationen ein.
Die Stärke der Terminal-Agenten
Die jüngste Forschung stellt die Notwendigkeit solch komplexer Agentensysteme infrage, insbesondere angesichts deren Kosten und des operativen Overheads. Die Studie argumentiert, dass ein Programmieragent, der lediglich mit einem Terminal und einem Dateisystem ausgestattet ist, viele Unternehmensaufgaben effektiver lösen kann, indem er direkt mit Plattform-APIs interagiert. Die Ergebnisse zeigen, dass diese „Low-Level“-Terminal-Agenten mit komplexeren Agentenarchitekturen mithalten oder diese sogar übertreffen, und das bei vergleichbarer Effizienz.
Diese Erkenntnisse basieren auf einer systematischen Bewertung führender LLMs – darunter Claude Sonnet 4.6, Claude Opus 4.6, GPT-5.4 Thinking und Gemini 3.1 Pro – über verschiedene reale Unternehmensplattformen wie ServiceNow, GitLab und ERPNext. Dabei wurden drei Paradigmen verglichen:
- GUI-gesteuerte Web-Agenten: Agieren über Browserschnittstellen.
- Tool-augmentierte Agenten: Greifen über MCP auf kuratierte APIs zu.
- Minimale Terminal-Agenten: Interagieren direkt mit Plattform-APIs.
Die Evaluierung konzentrierte sich auf die Erfolgsrate (SR) bei der Aufgabenerfüllung und die Inferenzkosten, gemessen am Token-Verbrauch der zugrunde liegenden Sprachmodelle.
Vergleich der Agententypen: Effizienz und Leistung
MCP-Agenten: Begrenzte Flexibilität
MCP-Agenten zeigten in der Studie die niedrigsten Erfolgsraten. Selbst auf Plattformen wie ServiceNow mit 93 verfügbaren Tools konnten viele Aufgaben nicht bewältigt werden, da die erforderlichen Aktionen über die unterstützten Endpunkte hinausgingen. Auf GitLab, mit 107 Tools, verbesserte sich die Leistung, blieb aber deutlich hinter anderen Agententypen zurück. Interessanterweise war die Leistung der MCP-Agenten auf ERPNext, das nur 7 Tools bereitstellt, am nächsten an den anderen Agenten. Dies deutet darauf hin, dass eine kleine Anzahl gut konzipierter, allgemeiner Tools effektiver sein kann als ein großer Katalog spezialisierter, aber unflexibler Endpunkte. MCP-Agenten waren zwar durchweg am kostengünstigsten, was ihren Engpass eher in der Tool-Abdeckung als in der Effizienz bestätigt.
Web-Agenten: Hohe Kosten für Flexibilität
Web-Agenten boten eine höhere Flexibilität und erreichten in 8 von 12 Plattform-Modell-Kombinationen die höchste oder gleich hohe Genauigkeit. Diese Flexibilität ging jedoch mit erheblichen Kosten einher. Auf ServiceNow waren Web-Agenten 4- bis 6-mal teurer als Terminal-Agenten, da jede Interaktion große Zugänglichkeitsbäume und Bildschirmfotos verarbeiten musste. Bei Opus 4.6 auf ERPNext betrug der Kostenunterschied sogar das 9-fache bei nur geringfügig höherer Genauigkeit.
Terminal-Agenten: Das optimale Verhältnis
Terminal-Agenten zeigten das beste Kosten-Leistungs-Verhältnis. Sie erreichten oder übertrafen die Genauigkeit von Web-Agenten in 7 von 12 Kombinationen und waren dabei konsistent kostengünstiger, oft um den Faktor 5 oder mehr. Auf ServiceNow erzielten terminalbasierte Programmieragenten bei allen vier Modellen die höchste Erfolgsrate. Mit Gemini 3.1 Pro erreichten sie eine durchschnittliche Erfolgsrate von 77,5 % über alle Umgebungen hinweg bei nur 0,09 USD pro Aufgabe, was die kostengünstigste Konfiguration darstellt. Ihr Vorteil liegt in der programmatischen Interaktion über Shell-Befehle und API-Aufrufe, die den Overhead der UI-Darstellung vermeidet und gleichzeitig die Flexibilität bewahrt, beliebige Operationen zu komponieren, die MCP-Tools möglicherweise nicht bereitstellen.
Rolle der Dokumentation und selbstgenerierter Fähigkeiten
Parametrisches Wissen vs. Dokumentation
Die Studie untersuchte auch, ob Terminal-Agenten von der Nutzung offizieller Plattformdokumentationen profitieren oder sich auf ihr parametrisches Wissen und die direkte API-Interaktion verlassen können. Insgesamt zeigte sich kein eindeutiger Vorteil der Dokumentation; beide Konfigurationen erzielten vergleichbare Erfolgsraten. Auf ServiceNow führte die Dokumentation bei Sonnet sogar zu einer geringeren Erfolgsrate und höheren Kosten, da Agenten einen erheblichen Teil ihres Tool-Aufrufbudgets für das Abrufen und Lesen von Dokumentationen statt für die Aufgabenausführung aufwendeten. Auf ERPNext hingegen half die Dokumentation bei Sonnet, was darauf hindeutet, dass der Agent die abgerufenen Informationen effizient integrieren konnte. Bei GitLab hatte die Dokumentation keinen Einfluss auf die Genauigkeit, verdoppelte aber die Kosten, was darauf hindeutet, dass der Agent die Dokumentation las, ohne daraus Nutzen zu ziehen.
Diese Ergebnisse legen nahe, dass die Struktur der Dokumentation entscheidend ist. Menschenorientierte Referenzdokumentation kann Agenten in die Irre führen, während prägnante, aufgabenorientierte Inhalte effektive Anleitungen bieten.
Die Bedeutung selbstgenerierter Fähigkeiten ("Skills")
Ein weiterer wichtiger Aspekt war die Fähigkeit von Terminal-Agenten, "on the job" zu lernen. Wenn Agenten über die Zeit Aufgaben ausführen, können sie Problemlösungsstrategien, Workflows und andere nützliche Notizen in einem persistenten "Skills"-Verzeichnis speichern. Diese selbstgenerierten Fähigkeiten verbesserten die Erfolgsrate auf allen drei Plattformen, insbesondere auf ERPNext (+5,8 %), wo Aufgaben oft nicht-offensichtliche Feldnamen und mehrstufige Abhängigkeitsketten umfassen. ServiceNow zeigte eine Verbesserung von 3,6 %, während GitLab nur einen marginalen Gewinn (+1,6 %) aufwies, was darauf hindeutet, dass dessen Aufgaben eher unkomplizierte API-Aufrufe sind, die das Modell allein aus parametrischem Wissen bewältigen kann.
Neben der Genauigkeit war der auffälligste Effekt die Kostenreduzierung. Auf ServiceNow sanken die Kosten pro Aufgabe um 43,7 %, und auf ERPNext um 16,8 %. Dies deutet darauf hin, dass die Akkumulation von Wissen als Investition fungiert, die sich über nachfolgende Aufgaben amortisiert. Die Größe des "Skills"-Verzeichnisses wuchs auf ServiceNow und ERPNext schnell an, stabilisierte sich aber, sobald die meisten Muster erfasst waren. Auf GitLab blieb die Speichergröße minimal, was darauf hindeutet, dass der Wert eines persistenten Speichers davon abhängt, wie unbekannt die API der Plattform für das Basismodell ist.
Herausforderungen und zukünftige Richtungen
Grenzen terminaler Interaktion
Trotz ihrer Vorteile stoßen Terminal-Agenten an Grenzen, wenn Aufgaben die Interaktion mit dem Plattformzustand erfordern, der nur über die Web-Benutzeroberfläche zugänglich ist. Beispiele hierfür sind ServiceNows "Impersonation"-Funktion, die einen Browser-Sitzungscookie-Austausch erfordert, oder das Lesen von gerenderten UI-Elementen wie Diagrammen. Auch komplexe UI-Interaktionen wie Drag-and-Drop-Workflow-Editoren sind für Terminal-Agenten schwer zugänglich, da diese Funktionen oft nicht über öffentliche APIs verfügbar sind.
Diese Einschränkungen legen nahe, dass eine Kombination aus programmatischen und browserbasierten Tools eine vielversprechende Richtung sein könnte, um Agenten die Auswahl des effektivsten Interaktionsmodus für jede Unteraufgabe zu ermöglichen. Erste Experimente mit hybriden Agenten zeigen, dass diese bei stärkeren Modellen (z.B. Claude Opus 4.6) die höchsten Erfolgsraten erzielen können, allerdings oft zu höheren Kosten.
Qualität der Dokumentation
Die Art der Dokumentation beeinflusst die Leistung der Agenten maßgeblich. Referenzorientierte Dokumentationen, die für Menschen geschrieben sind, können Agenten zu suboptimalen Strategien führen, während aufgabenorientierte Dokumentationen, die direkt den API-Aufrufen entsprechen, effektiver sind. Dies unterstreicht die Notwendigkeit, Dokumentationen für die KI-Nutzung zu strukturieren oder von Agenten selbst erstellte, strukturierte Verfahren (Skills) als Ergänzung zu nutzen.
Fazit und Ausblick
Die Forschungsergebnisse deuten darauf hin, dass minimale Programmieragenten, die über ein Terminal und ein Dateisystem arbeiten und direkt mit Plattform-APIs interagieren, mit komplexeren Architekturen wie GUI-gesteuerten Web-Agenten und MCP-basierten Tool-augmentierten Agenten mithalten oder diese sogar übertreffen. Trotz ihrer Einfachheit erreichen diese Agenten eine wettbewerbsfähige Effizienz, während sie die Anfälligkeit der GUI-Interaktion und die Ausdrucksbeschränkungen vordefinierter Tool-Schemas vermeiden.
Dies impliziert, dass die Unternehmensautomatisierung möglicherweise stärker von der Bereitstellung stabiler, programmierbarer Schnittstellen profitiert als von der Einführung zusätzlicher Abstraktionsschichten. Wenn Plattformen ausdrucksstarke APIs bereitstellen, können leichtgewichtige Programmieragenten Funktionalitäten dynamisch entdecken und komponieren, ohne umfangreiche aufgabenspezifische Toolings zu benötigen.
Zukünftige Arbeiten könnten sich auf die Entwicklung von Benchmarks konzentrieren, die Langzeit-Agenten mit Koordination über mehrere Plattformen, Zustandsverwaltung über längere Interaktionen und menschliche Aufsicht abbilden. Die Ausweitung der Evaluierung auf weitere Unternehmensbereiche wie IT-Betrieb, Personalwesen, Sicherheit und Finanzen wird entscheidend sein, um zu verstehen, wie Agentenarchitekturen in realen Organisationsumgebungen skalieren.
Die Erkenntnisse aus dieser Studie bieten wertvolle Einblicke für Unternehmen, die ihre Automatisierungsstrategien mit KI-Agenten optimieren möchten. Sie legen nahe, dass eine Fokussierung auf die Stärke von Basismodellen in Kombination mit direkten, programmatischen Schnittstellen einen effektiveren und kostengünstigeren Weg zur Unternehmensautomatisierung darstellen könnte.
Bibliographie
- Anthropic (2024) Anthropic. Introducing the model context protocol. https://www.anthropic.com/news/model-context-protocol, November 2024. Accessed: 2026-03-03.
- Anthropic (2026a) Anthropic. Claude opus 4.6 system card. Technical report, Anthropic, February 2026a. URL https://www-cdn.anthropic.com/6a5fa276ac68b9aeb0c8b6af5fa36326e0e166dd.pdf. Accessed: 2026-03-13.
- Anthropic (2026b) Anthropic. Claude sonnet 4.6 system card. Technical report, Anthropic, February 2026b. URL https://www-cdn.anthropic.com/bbd8ef16d70b7a1665f14f306ee88b53f686aa75.pdf. Accessed: 2026-03-13.
- Anthropic (2026c) Anthropic. Claude Code. https://www.anthropic.com/claude-code, 2026c. AI coding assistant. Accessed: 2026-03-03.
- Austin et al. (2021) Jacob Austin, Augustus Odena, Maxwell Nye, Maarten Bosma, Henryk Michalewski, David Dohan, Ellen Jiang, Carrie Cai, Michael Terry, Quoc Le, and Charles Sutton. Program synthesis with large language models, 2021. URL https://arxiv.org/abs/2108.07732.
- Ayala & Béchard (2024) Orlando Marquez Ayala and Patrice Béchard. Generating a low-code complete workflow via task decomposition and rag. arXiv preprint arXiv:2412.00239, 2024.
- Boisvert et al. (2024) Léo Boisvert, Megh Thakkar, Maxime Gasse, Massimo Caccia, Thibault Le Sellier de Chezelles, Quentin Cappart, Nicolas Chapados, Alexandre Lacoste, and Alexandre Drouin. Workarena++: Towards compositional planning and reasoning-based common knowledge work tasks. In The Thirty-eight Conference on Neural Information Processing Systems Datasets and Benchmarks Track, 2024. URL https://openreview.net/forum?id=PCjK8dqrWW.
- Chen et al. (2021) Mark Chen, Jerry Tworek, Heewoo Jun, Qiming Yuan, Henrique Ponde de Oliveira Pinto, Jared Kaplan, Harri Edwards, Yuri Burda, Nicholas Joseph, Greg Brockman, Alex Ray, Raul Puri, Gretchen Krueger, Michael Petrov, Heidy Khlaaf, Girish Sastry, Pamela Mishkin, Brooke Chan, Scott Gray, Nick Ryder, Mikhail Pavlov, Alethea Power, Lukasz Kaiser, Mohammad Bavarian, Clemens Winter, Philippe Tillet, Felipe Petroski Such, Dave Cummings, Matthias Plappert, Fotios Chantzis, Elizabeth Barnes, Ariel Herbert-Voss, William Hebgen Guss, Alex Nichol, Alex Paino, Nikolas Tezak, Jie Tang, Igor Babuschkin, Suchir Balaji, Shantanu Jain, William Saunders, Christopher Hesse, Andrew N. Carr, Jan Leike, Josh Achiam, Vedant Misra, Evan Morikawa, Alec Radford, Matthew Knight, Miles Brundage, Mira Murati, Katie Mayer, Peter Welinder, Bob McGrew, Dario Amodei, Sam McCandlish, Ilya Sutskever, and Wojciech Zaremba. Evaluating large language models trained on code, 2021. URL https://arxiv.org/abs/2107.03374.
- Dai et al. (2025) Yutong Dai, Krithika Ramakrishnan, Jing Gu, Matthew Fernandez, Yanqi Luo, Viraj Prabhu, Zhenyu Hu, Silvio Savarese, Caiming Xiong, Zeyuan Chen, and Ran Xu. Scuba: Salesforce computer use benchmark. arXiv preprint arXiv:2509.26506, 2025. URL https://arxiv.org/abs/2509.26506.
- Deng et al. (2023) Xiang Deng, Yu Gu, Boyuan Zheng, Shijie Chen, Samuel Stevens, Boshi Wang, Huan Sun, and Yu Su. Mind2web: Towards a generalist agent for the web. In Thirty-seventh Conference on Neural Information Processing Systems Datasets and Benchmarks Track, 2023. URL https://openreview.net/forum?id=kiYqbO3wqw.
- Drouin et al. (2024) Alexandre Drouin, Maxime Gasse, Massimo Caccia, Issam H Laradji, Manuel Del Verme, Tom Marty, David Vazquez, Nicolas Chapados, and Alexandre Lacoste. Workarena: How capable are web agents at solving common knowledge work tasks? In International Conference on Machine Learning, pp. 11642–11662. PMLR, 2024.
- El Hattami et al. (2025) Amine El Hattami, Megh Thakkar, Nicolas Chapados, and Christopher Pal. Webarena verified: Reliable evaluation for web agents. In Workshop on Scaling Environments for Agents, 2025. URL https://openreview.net/forum?id=94tlGxmqkN.
- Erdogan et al. (2025) Lutfi Eren Erdogan, Hiroki Furuta, Sehoon Kim, Nicholas Lee, Suhong Moon, Gopala Anumanchipalli, Kurt Keutzer, and Amir Gholami. Plan-and-act: Improving planning of agents for long-horizon tasks. In Forty-second International Conference on Machine Learning, 2025. URL https://openreview.net/forum?id=ybA4EcMmUZ.
- Google DeepMind (2026) Google DeepMind. Gemini 3.1 pro model card. Technical report, Google DeepMind, February 2026. URL https://storage.googleapis.com/deepmind-media/Model-Cards/Gemini-3-1-Pro-Model-Card.pdf. Accessed: 2026-03-13.
- Gupta et al. (2026) Lakshya Gupta, Litao Li, Yizhe Liu, Sriram Ganapathi Subramanian, Kaheer Suleman, Zichen Zhang, Haoye Lu, and Sumit Pasupalak. World of workflows: a benchmark for bringing world models to enterprise systems. arXiv preprint arXiv:2601.22130, 2026.
- Huang et al. (2025) Kung-Hsiang Huang, Akshara Prabhakar, Sidharth Dhawan, Yixin Mao, Huan Wang, Silvio Savarese, Caiming Xiong, Philippe Laban, and Chien-Sheng Wu. CRMArena: Understanding the capacity of LLM agents to perform professional CRM tasks in realistic environments. In Luis Chiruzzo, Alan Ritter, and Lu Wang (eds.), Proceedings of the 2025 Conference of the Nations of the Americas Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers), pp. 3830–3850, Albuquerque, New Mexico, April 2025. Association for Computational Linguistics. ISBN 979-8-89176-189-6. 10.18653/v1/2025.naacl-long.194. URL https://aclanthology.org/2025.naacl-long.194/.
- Jimenez et al. (2024) Carlos E Jimenez, John Yang, Alexander Wettig, Shunyu Yao, Kexin Pei, Ofir Press, and Karthik R Narasimhan. SWE-bench: Can language models resolve real-world github issues? In The Twelfth International Conference on Learning Representations, 2024. URL https://openreview.net/forum?id=VTF8yNQM66.
- Li et al. (2026) Xiangyi Li, Wenbo Chen, Yimin Liu, Shenghan Zheng, Xiaokun Chen, Yifeng He, Yubo Li, Bingran You, Haotian Shen, Jiankai Sun, et al. Skillsbench: Benchmarking how well agent skills work across diverse tasks. arXiv preprint arXiv:2602.12670, 2026.
- Lu et al. (2025) Junting Lu, Zhiyang Zhang, Fangkai Yang, Jue Zhang, Lu Wang, Chao Du, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, and Qi Zhang. AXIS: Efficient human-agent-computer interaction with API-first LLM-based agents. In Wanxiang Che, Joyce Nabende, Ekaterina Shutova, and Mohammad Taher Pilehvar (eds.), Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pp. 7711–7743, Vienna, Austria, July 2025. Association for Computational Linguistics. ISBN 979-8-89176-251-0. 10.18653/v1/2025.acl-long.381. URL https://aclanthology.org/2025.acl-long.381/.
- Luo et al. (2025) Ziyang Luo, Zhiqi Shen, Wenzhuo Yang, Zirui Zhao, Prathyusha Jwalapuram, Amrita Saha, Doyen Sahoo, Silvio Savarese, Caiming Xiong, and Junnan Li. Mcp-universe: Benchmarking large language models with real-world model context protocol servers, 2025. URL https://arxiv.org/abs/2508.14704.
- Malay et al. (2026) Shiva Krishna Reddy Malay, Shravan Nayak, Jishnu Sethumadhavan Nair, Sagar Davasam, Aman Tiwari, Sathwik Tejaswi Madhusudhan, Sridhar Krishna Nemala, Srinivas Sunkara, and Sai Rajeswar. Enterpriseops-gym: Environments and evaluations for stateful agentic planning and tool use in enterprise settings, 2026. URL https://arxiv.org/abs/2603.13594.
- Nekoei et al. (2025) Hadi Nekoei, Aman Jaiswal, Patrice Bechard, Oleh Shliazhko, Orlando Marquez Ayala, Mathieu Reymond, Massimo Caccia, Alexandre Drouin, Sarath Chandar, and Alexandre Lacoste. Just-in-time episodic feedback hinter: Leveraging offline knowledge to improve llm agents adaptation. arXiv preprint arXiv:2510.04373, 2025.
- OpenAI (2026a) OpenAI. Gpt-5.4 thinking system card. Technical report, OpenAI, March 2026a. URL https://deploymentsafety.openai.com/gpt-5-4-thinking/gpt-5-4-thinking.pdf. Accessed: 2026-03-13.
- OpenAI (2026b) OpenAI. openai/openai-agents-python. https://github.com/openai/openai-agents-python, 2026b. GitHub repository, accessed March 13, 2026.
- Ouyang et al. (2025) Siru Ouyang, Jun Yan, I Hsu, Yanfei Chen, Ke Jiang, Zifeng Wang, Rujun Han, Long T Le, Samira Daruki, Xiangru Tang, et al. Reasoningbank: Scaling agent self-evolving with reasoning memory. arXiv preprint arXiv:2509.25140, 2025.
- Patil et al. (2023) Shishir G. Patil, Tianjun Zhang, Xin Wang, and Joseph E. Gonzalez. Gorilla: Large language model connected with massive apis. arXiv preprint arXiv:2305.15334, 2023. URL https://arxiv.org/abs/2305.15334.
- Patil et al. (2025) Shishir G Patil, Huanzhi Mao, Fanjia Yan, Charlie Cheng-Jie Ji, Vishnu Suresh, Ion Stoica, and Joseph E. Gonzalez. The berkeley function calling leaderboard (BFCL): From tool use to agentic evaluation of large language models. In Forty-second International Conference on Machine Learning, 2025. URL https://openreview.net/forum?id=2GmDdhBdDk.
- Prabhu et al. (2026) Viraj Prabhu, Yutong Dai, Matthew Fernandez, Krithika Ramakrishnan, Jing Gu, Yanqi Luo, silvio savarese, Caiming Xiong, Junnan Li, Zeyuan Chen, and Ran Xu. WALT: Web agents that learn tools. In The Fourteenth International Conference on Learning Representations, 2026. URL https://openreview.net/forum?id=cgIDqcJcoI.
- Qin et al. (2023) Yujia Qin, Shihao Liang, Yining Ye, Kunlun Zhu, Lan Yan, Yaxi Lu, Yankai Lin, Xin Cong, Xiangru Tang, Bill Qian, Sihan Zhao, Runchu Tian, Ruobing Xie, Jie Zhou, Mark Gerstein, Dahai Li, Zhiyuan Liu, and Maosong Sun. Toolllm: Facilitating large language models to master 16000+ real-world apis, 2023.
- Qin et al. (2025) Yujia Qin, Yining Ye, Junjie Fang, Haoming Wang, Shihao Liang, Shizuo Tian, Junda Zhang, Jiahao Li, Yunxin Li, Shijue Huang, et al. Ui-tars: Pioneering automated gui interaction with native agents. arXiv preprint arXiv:2501.12326, 2025.
- Song et al. (2025) Yueqi Song, Frank F. Xu, Shuyan Zhou, and Graham Neubig. Beyond browsing: API-based web agents. In Wanxiang Che, Joyce Nabende, Ekaterina Shutova, and Mohammad Taher Pilehvar (eds.), Findings of the Association for Computational Linguistics: ACL 2025, pp. 11066–11085, Vienna, Austria, July 2025. Association for Computational Linguistics. ISBN 979-8-89176-256-5. 10.18653/v1/2025.findings-acl.577. URL https://aclanthology.org/2025.findings-acl.577/.
- Steinberger (2026) Peter Steinberger. OpenClaw. https://github.com/openclaw/openclaw, 2026. Open-source autonomous AI assistant, formerly Clawdbot/Moltbot. Accessed: 2026-03-03.
- Trivedi et al. (2024) Harsh Trivedi, Tushar Khot, Mareike Hartmann, Ruskin Manku, Vinty Dong, Edward Li, Shashank Gupta, Ashish Sabharwal, and Niranjan Balasubramanian. Appworld: A controllable world of apps and people for benchmarking interactive coding agents. arXiv preprint arXiv:2407.18901, 2024. URL https://arxiv.org/abs/2407.18901.
- Wang et al. (2024a) Xingyao Wang, Yangyi Chen, Lifan Yuan, Yizhe Zhang, Yunzhu Li, Hao Peng, and Heng Ji. Executable code actions elicit better LLM agents. In Forty-first International Conference on Machine Learning, 2024a. URL https://openreview.net/forum?id=jJ9BoXAfFa.
- Wang et al. (2024b) Xingyao Wang, Boxuan Li, Yufan Song, Frank F. Xu, Xiangru Tang, Mingchen Zhuge, Jiayi Pan, Yueqi Song, Bowen Li, Jaskirat Singh, Hoang H. Tran, Fuqiang Li, Ren Ma, Mingzhang Zheng, Bill Qian, Yanjun Shao, Niklas Muennighoff, Yizhe Zhang, Binyuan Hui, Junyang Lin, Robert Brennan, Hao Peng, Heng Ji, and Graham Neubig. Openhands: An open platform for ai software developers as generalist agents. arXiv preprint arXiv:2407.16741, 2024b. URL https://arxiv.org/abs/2407.16741.
- Xu et al. (2025a) Frank F. Xu, Yufan Song, Boxuan Li, Yuxuan Tang, Kritanjali Jain, Mengxue Bao, Zora Zhiruo Wang, Xuhui Zhou, Zhitong Guo, Murong Cao, Mingyang Yang, Hao Yang Lu, Amaad Martin, Zhe Su, Leander Melroy Maben, Raj Mehta, Wayne Chi, Lawrence Keunho Jang, Yiqing Xie, Shuyan Zhou, and Graham Neubig. Theagentcompany: Benchmarking LLM agents on consequential real world tasks. In The Thirty-ninth Annual Conference on Neural Information Processing Systems Datasets and Benchmarks Track, 2025a. URL https://openreview.net/forum?id=LZnKNApvhG.
- Xu et al. (2025b) Wujiang Xu, Zujie Liang, Kai Mei, Hang Gao, Juntao Tan, and Yongfeng Zhang. A-mem: Agentic memory for llm agents. In Advances in Neural Information Processing Systems, 2025b.
- Yang et al. (2024) John Yang, Carlos E Jimenez, Alexander Wettig, Kilian Lieret, Shunyu Yao, Karthik Narasimhan, and Ofir Press. Swe-agent: Agent-computer interfaces enable automated software engineering. Advances in Neural Information Processing Systems, 37:50528–50652, 2024.
- Yao et al. (2022) Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik R Narasimhan, and Yuan Cao. React: Synergizing reasoning and acting in language models. In The eleventh international conference on learning representations, 2022.
- Zhang et al. (2025a) Alex L Zhang, Tim Kraska, and Omar Khattab. Recursive language models. arXiv preprint arXiv:2512.24601, 2025a.
- Zhang et al. (2025b) Qizheng Zhang, Changran Hu, Shubhangi Upasani, Boyuan Ma, Fenglu Hong, Vamsidhar Kamanuru, Jay Rainton, Chen Wu, Mengmeng Ji, Hanchen Li, et al. Agentic context engineering: Evolving contexts for self-improving language models. arXiv preprint arXiv:2510.04618, 2025b.
- Zhou et al. (2024) Shuyan Zhou, Frank F. Xu, Hao Zhu, Xuhui Zhou, Robert Lo, Abishek Sridhar, Xianyi Cheng, Tianyue Ou, Yonatan Bisk, Daniel Fried, Uri Alon, and Graham Neubig. Webarena: A realistic web environment for building autonomous agents. In The Twelfth International Conference on Learning Representations, 2024. URL https://openreview.net/forum?id=oKn9c6ytLx.