MolmoWeb: Neuer offener multimodaler Web-Agent revolutioniert die Browserautomatisierung

Kategorien:

No items found.

Freigegeben:

March 25, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Ai2 hat MolmoWeb veröffentlicht, einen vollständig offenen multimodalen Web-Agenten.
MolmoWeb ermöglicht die autonome Steuerung von Browsern zur Aufgabenbewältigung.
Der Agent basiert auf visueller Interpretation von Screenshots, anstatt auf HTML-Parsing.
MolmoWeb erzielt in Benchmarks State-of-the-Art-Ergebnisse und übertrifft GPT-4o-basierte Agenten.
Zusammen mit MolmoWeb wurde MolmoWebMix veröffentlicht, ein umfangreicher Datensatz für das Training von Web-Agenten.
Die Veröffentlichung zielt darauf ab, die Forschung und Entwicklung im Bereich offener Web-Agenten voranzutreiben.

Die Landschaft der Künstlichen Intelligenz wird kontinuierlich durch innovative Entwicklungen geprägt. Eine aktuelle und bemerkenswerte Veröffentlichung des Allen Institute for AI (Ai2) ist MolmoWeb – ein vollständig offener multimodaler Web-Agent. Dieses System ist darauf ausgelegt, Browser autonom zu steuern, um komplexe Aufgaben zu erledigen. Es beansprucht, State-of-the-Art-Ergebnisse zu erzielen und sogar GPT-4o-basierte Agenten in Schlüssel-Benchmarks wie WebVoyager und Mind2Web zu übertreffen.

Die Funktionsweise von MolmoWeb

MolmoWeb unterscheidet sich von vielen bestehenden Web-Agenten durch seinen Ansatz der visuellen Interaktion. Anstatt auf strukturierte Darstellungen wie HTML-Bäume oder Accessibility Trees angewiesen zu sein, agiert MolmoWeb, indem es Screenshots der aktuellen Browseransicht interpretiert. Dieser "Sehen-und-Handeln"-Ansatz ermöglicht es dem Agenten, die Webseite genauso wahrzunehmen wie ein menschlicher Nutzer. Basierend auf einer Aufgabenanweisung und dem visuellen Input trifft das Modell Entscheidungen über die nächsten Schritte, wie das Klicken auf Koordinaten, das Eingeben von Text, das Scrollen oder das Navigieren zu neuen URLs.

Visuelle Interpretation versus Struktur-Parsing

Die Entscheidung, primär auf Screenshots zu setzen, bringt spezifische Vorteile mit sich. Zum einen sind Screenshots eine kompaktere Eingaberepräsentation im Vergleich zu umfangreichen HTML-Strukturen, die Zehntausende von Tokens umfassen können. Dies kann die Verarbeitungseffizienz steigern. Zum anderen bleiben visuelle Schnittstellen oft stabiler, selbst wenn sich die zugrunde liegenden Seitenstrukturen ändern. Da das Modell dieselbe Schnittstelle wie der Benutzer interpretiert, kann sein Verhalten potenziell einfacher nachvollzogen und debugged werden.

Diese Methode erlaubt es MolmoWeb, eine Vielzahl alltäglicher Web-Aufgaben zu bewältigen, darunter das Navigieren auf mehrseitigen Websites, das Ausfüllen von Formularen, das Suchen und Filtern von Produktlisten oder das Extrahieren von Informationen. Der Agent zerlegt Anweisungen in Aktionssequenzen und behält dabei den Kontext früherer Schritte bei, während er auf die aktuellen Bildschirminhalte reagiert.

MolmoWebMix: Der Datensatz für offene Web-Agenten

Ein wesentlicher Bestandteil der MolmoWeb-Veröffentlichung ist MolmoWebMix, ein umfassender und diverser Datensatz, der speziell für das Training multimodaler Web-Agenten entwickelt wurde. Die Komplexität beim Aufbau von Web-Agenten wird oft durch den Mangel an öffentlich verfügbaren Trainingsdaten erschwert. MolmoWebMix adressiert diese Lücke durch die Kombination verschiedener Datenquellen:

Menschliche Demonstrationen: Über 36.000 menschliche Aufgabenverläufe, die von Crowdworkern mithilfe einer benutzerdefinierten Chrome-Erweiterung aufgezeichnet wurden. Diese umfassen über 623.000 einzelne Unteraufgaben-Demonstrationen auf mehr als 1.100 Websites.
Synthetische Trajektorien: Um die Skalierung über menschliche Annotationen hinaus zu ermöglichen, wurden zusätzliche Trajektorien von automatisierten Agenten generiert, die auf Accessibility Trees von Webseiten operieren. Dies umfasst Ein-Agenten-Läufe, Multi-Agenten-Pipelines und deterministische Navigationspfade.
GUI-Wahrnehmungsdaten: Dieser Teil des Datensatzes trainiert das Modell, Webseiten-Screenshots zu interpretieren. Er beinhaltet Aufgaben zur Element-Verankerung (Identifizierung von UI-Elementen auf dem Bildschirm) und Screenshot-Frage-Antwort-Aufgaben mit über 2,2 Millionen Frage-Antwort-Paaren von fast 400 Websites.

MolmoWebMix ist damit die größte öffentlich zugängliche Sammlung menschlicher Web-Interaktionen, die bislang veröffentlicht wurde.

Leistung und Benchmarks

MolmoWeb wurde auf vier weit verbreiteten Web-Agenten-Benchmarks evaluiert, die die Interaktion mit Live-Websites erfordern: WebVoyager, Online-Mind2Web, DeepShop und WebTailBench. Die Modelle sind in zwei Größen verfügbar: 4 Milliarden (4B) und 8 Milliarden (8B) Parameter.

Die Ergebnisse zeigen, dass beide MolmoWeb-Modelle, trotz ihrer relativ kompakten Größe, State-of-the-Art-Leistungen unter den offenen Web-Agenten erzielen. Das 8B-Modell erreichte beispielsweise 78,2 % auf WebVoyager, 42,3 % auf DeepShop und 49,5 % auf WebTailBench. Es übertraf damit führende Open-Weight-Modelle wie Fara-7B in allen vier Benchmarks. Bemerkenswert ist auch, dass selbst das kleinere 4B-Modell in bestimmten Szenarien Fara-7B übertraf.

Interessanterweise übertraf MolmoWeb auch Agenten, die auf wesentlich größeren, proprietären Modellen wie GPT-4o basieren und auf annotierten Screenshots sowie strukturierten Seitendaten beruhen. Dies wird als signifikantes Ergebnis gewertet, da diese proprietären Modelle über reichhaltigere Eingabedarstellungen und eine um Größenordnungen höhere Parameteranzahl verfügen.

Zusätzlich zur Aufgabenbewältigung zeigte MolmoWeb eine starke visuelle Verankerung, also die Fähigkeit, UI-Elemente präzise auf dem Bildschirm zu lokalisieren. Auf den Benchmarks ScreenSpot und ScreenSpot v2 übertraf ein dediziertes 8B-Verankerungsmodell sogar größere proprietäre Systeme wie Claude 3.7 und OpenAI CUA.

Weitere Analysen zeigten, dass die Durchführung mehrerer unabhängiger Agentenläufe und die Auswahl des besten Ergebnisses die Leistung signifikant verbessern kann. Mit diesem Testzeit-Skalierungsansatz erreichte das 8B-Modell 94,7 % pass@4 auf WebVoyager und 60,5 % auf Online-Mind2Web, was darauf hindeutet, dass zusätzliche Rechenleistung zur Inferenzzeit die Zuverlässigkeit erheblich steigern kann.

Einschränkungen und Sicherheitsaspekte

Trotz der vielversprechenden Ergebnisse weist MolmoWeb bestimmte Einschränkungen auf. Als rein visuell basiertes Modell kann es Fehler beim Lesen von Text aus Screenshots machen. Auch können inkorrekte Aktionen den Agenten vom Kurs abbringen, beispielsweise das Scrollen, bevor eine Seite vollständig geladen ist, was zum Übersehen relevanter Inhalte führen kann. Die Leistung nimmt ab, wenn Anweisungen mehrdeutig werden oder viele Einschränkungen beinhalten. Bestimmte Aktionen wie das Scrollen innerhalb eines spezifischen Seitenelements oder Drag-and-Drop bleiben weiterhin herausfordernd.

Aus Sicherheits- und Datenschutzgründen wurde MolmoWeb nicht für Aufgaben trainiert, die Anmeldungen oder Finanztransaktionen erfordern. Diese Bereiche stellen aktive Forschungs- und Entwicklungsfelder dar.

Hinsichtlich der Sicherheit wurde MolmoWeb mit Transparenz als Kernziel konzip, wobei jede Komponente zur Überprüfung offensteht. Die gehostete Demo implementiert zusätzliche Schutzmaßnahmen, wie die Beschränkung auf eine Whitelist von Websites, die Verwendung der Google Cloud Natural Language API zur Kennzeichnung unsicherer Abfragen und die Blockierung von Aktionen bei Passwörtern und Kreditkartenfeldern. Diese Einschränkungen sind jedoch spezifisch für die Demo-Umgebung und nicht im Modell selbst verankert, was die Forschungsgemeinschaft dazu anregen soll, weitere Sicherheitsmechanismen zu entwickeln.

Die Bedeutung von MolmoWeb für die Zukunft

MolmoWeb ist über Hugging Face und GitHub verfügbar, zusammen mit allen Trainingsdaten, Evaluierungstools und einer Inferenzbibliothek für den lokalen Betrieb des Modells. Dies ermöglicht Entwicklern die Selbsthosting von MolmoWeb, um alltägliche Browseraufgaben zu automatisieren, wie beispielsweise das Ausführen von Routineaufgaben nach einem festen Zeitplan oder das Sammeln von Informationen über Websites hinweg.

Da die gesamte Trainingspipeline offen ist, können Entwickler das Modell auch mit ihren eigenen Daten feinabstimmen, um es an spezifische Anwendungsfälle anzupassen. Forschende haben die Möglichkeit, jede Komponente zu inspizieren und darauf aufzubauen, um die Wissenschaft multimodaler Web-Agenten voranzutreiben.

Die Bereitstellung leistungsfähiger Agenten im offenen Web wirft auch ungelöste Fragen auf, etwa bezüglich der Einhaltung von Nutzungsbedingungen, des Zugriffs auf illegale Inhalte, der Sicherheit von Finanztransaktionen und des Schutzes persönlicher Informationen. Die Offenheit des Systems soll es mehr Akteuren ermöglichen, an der Beantwortung dieser Fragen und der Entwicklung notwendiger Sicherheitspraktiken für eine vertrauenswürdige Automatisierung im Web mitzuwirken.

MolmoWeb stellt einen Fortschritt dar, indem es multimodale Modelle über das passive Verständnis von Bildern hinaus zu Systemen entwickelt, die auf das, was sie sehen, reagieren können. Die Webplattform ist die größte Softwareplattform der Welt, und Agenten, die sie zuverlässig navigieren können, könnten den Zugang zu Informationen und digitalen Diensten erheblich erweitern.

Bibliographie

Allen Institute for AI. (2026, March 24). MolmoWeb: An open agent for automating web tasks. Ai2. Retrieved from https://allenai.org/blog/molmoweb
allenai/molmoweb. (2026, March 24). GitHub. Retrieved from https://github.com/allenai/m
Kerner, S. M. (2026, March 24). Ai2 releases MolmoWeb, an open-weight visual web agent with 30K human task trajectories and a full training stack. VentureBeat. Retrieved from https://venturebeat.com/data/ai2-releases-molmoweb-an-open-weight-visual-web-agent-with-30k-human-task
allenai/MolmoWeb-8B. Hugging Face. Retrieved from https://huggingface.co/allenai/MolmoWeb-8B
Yeung, K. (2026, March 24). Ai2 Launches MolmoWeb to Open the Web Agent Race. The AI Economy. Retrieved from https://theaieconomy.substack.com/p/ai2-molmoweb-molmowebmix-model-web-agent
Ai2_official. (2026, March 24). Introducing MolmoWeb—an open source web agent that complete tasks for you. Reddit. Retrieved from https://www.reddit.com/r/allenai/comments/1s2gw48/introducing_molmoweban_open_source_web_agent_that/
allenai_official. (2026, March 24). Today we're releasing MolmoWeb, an open source agent that can navigate + complete tasks in a browser on your behalf. Threads. Retrieved from https://www.threads.com/@allenai_official/post/DWRcc1SEcyf/today-were-releasing-molmo-web-an-open-source-agent-that-can-navigate-complete
Zhang, S. (2026, March 24). Ai2 Drops MolmoWeb - Open-Source Web Agent Beats GPT-4o. Awesome Agents. Retrieved from https://awesomeagents.ai/news/molmoweb-ai2-open-source-web-agent/
MolmoWeb. Awesome Agents. Retrieved from https://awesomeagents.ai/tags/molmoweb/
allenai/MolmoWeb-4B. Hugging Face. Retrieved from https://huggingface.co/allenai/MolmoWeb-4B