Die Automatisierung von Web-Aufgaben durch KI-Agenten stößt immer wieder auf ein hartnäckiges Hindernis: CAPTCHAs. Diese kleinen Rätsel, die Mensch von Maschine unterscheiden sollen, stellen für multimodale Large Language Models (MLLMs) eine besondere Herausforderung dar. Während diese Modelle in statischen Wahrnehmungsaufgaben beeindruckende Leistungen zeigen, sind ihre Fähigkeiten im Umgang mit interaktiven, mehrstufigen Denkaufgaben wie CAPTCHAs bisher weitgehend unerforscht.
Um diese Lücke zu schließen, wurde Open CaptchaWorld entwickelt – eine webbasierte Benchmark-Plattform, die speziell darauf ausgerichtet ist, die visuellen Denk- und Interaktionsfähigkeiten von MLLM-Agenten zu bewerten. Die Plattform bietet eine Vielzahl dynamischer CAPTCHA-Rätsel, die die Komplexität realer Webszenarien widerspiegeln.
Open CaptchaWorld umfasst 20 verschiedene CAPTCHA-Typen mit insgesamt 225 individuellen Rätseln. Ein besonderes Merkmal der Plattform ist die Einführung der "CAPTCHA Reasoning Depth". Diese neue Metrik quantifiziert die Anzahl der kognitiven und motorischen Schritte, die zur Lösung eines bestimmten CAPTCHAs erforderlich sind. Sie ermöglicht eine differenzierte Bewertung der Komplexität der einzelnen Rätsel und bietet somit eine Grundlage für die Analyse der Stärken und Schwächen der getesteten KI-Agenten.
Erste Tests mit Open CaptchaWorld verdeutlichen den Leistungsunterschied zwischen Mensch und Maschine. Während menschliche Testergebnisse nahezu perfekte Erfolgsquoten aufweisen (93,3%), haben selbst modernste MLLM-Agenten erhebliche Schwierigkeiten. Die Erfolgsraten liegen derzeit bei maximal 40%, erreicht vom Browser-Use Openai-o3. Diese Ergebnisse unterstreichen die Bedeutung von Open CaptchaWorld als Benchmark für die Diagnose der Grenzen aktueller multimodaler Agenten.
Open CaptchaWorld bietet nicht nur eine Plattform zur Leistungsbewertung, sondern dient auch als wertvolles Werkzeug für die Weiterentwicklung von MLLMs. Durch die Identifizierung von Schwachstellen in der multimodalen Argumentation können gezielte Verbesserungen an den Algorithmen vorgenommen werden. Die Plattform trägt somit dazu bei, robustere und leistungsfähigere KI-Systeme zu entwickeln, die zukünftig komplexe Web-Interaktionen erfolgreich bewältigen können. Die frei verfügbaren Codes und Daten von Open CaptchaWorld ermöglichen es der Forschungsgemeinschaft, auf diesen Ergebnissen aufzubauen und die Entwicklung im Bereich der multimodalen KI voranzutreiben.
Bibliographie: - Luo, Y. et al. (2024). Open CaptchaWorld: A Comprehensive Web-based Platform for Testing and Benchmarking Multimodal LLM Agents. arXiv preprint arXiv:2505.24878. - https://arxiv.org/abs/2409.13711 - https://arxiv.org/html/2412.14161v1 - https://proceedings.neurips.cc/paper_files/paper/2024/file/5d413e48f84dc61244b6be550f1cd8f5-Paper-Datasets_and_Benchmarks_Track.pdf