Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Landschaft der Künstlichen Intelligenz wird kontinuierlich durch innovative Entwicklungen geprägt. Eine aktuelle und bemerkenswerte Veröffentlichung des Allen Institute for AI (Ai2) ist MolmoWeb – ein vollständig offener multimodaler Web-Agent. Dieses System ist darauf ausgelegt, Browser autonom zu steuern, um komplexe Aufgaben zu erledigen. Es beansprucht, State-of-the-Art-Ergebnisse zu erzielen und sogar GPT-4o-basierte Agenten in Schlüssel-Benchmarks wie WebVoyager und Mind2Web zu übertreffen.
MolmoWeb unterscheidet sich von vielen bestehenden Web-Agenten durch seinen Ansatz der visuellen Interaktion. Anstatt auf strukturierte Darstellungen wie HTML-Bäume oder Accessibility Trees angewiesen zu sein, agiert MolmoWeb, indem es Screenshots der aktuellen Browseransicht interpretiert. Dieser "Sehen-und-Handeln"-Ansatz ermöglicht es dem Agenten, die Webseite genauso wahrzunehmen wie ein menschlicher Nutzer. Basierend auf einer Aufgabenanweisung und dem visuellen Input trifft das Modell Entscheidungen über die nächsten Schritte, wie das Klicken auf Koordinaten, das Eingeben von Text, das Scrollen oder das Navigieren zu neuen URLs.
Die Entscheidung, primär auf Screenshots zu setzen, bringt spezifische Vorteile mit sich. Zum einen sind Screenshots eine kompaktere Eingaberepräsentation im Vergleich zu umfangreichen HTML-Strukturen, die Zehntausende von Tokens umfassen können. Dies kann die Verarbeitungseffizienz steigern. Zum anderen bleiben visuelle Schnittstellen oft stabiler, selbst wenn sich die zugrunde liegenden Seitenstrukturen ändern. Da das Modell dieselbe Schnittstelle wie der Benutzer interpretiert, kann sein Verhalten potenziell einfacher nachvollzogen und debugged werden.
Diese Methode erlaubt es MolmoWeb, eine Vielzahl alltäglicher Web-Aufgaben zu bewältigen, darunter das Navigieren auf mehrseitigen Websites, das Ausfüllen von Formularen, das Suchen und Filtern von Produktlisten oder das Extrahieren von Informationen. Der Agent zerlegt Anweisungen in Aktionssequenzen und behält dabei den Kontext früherer Schritte bei, während er auf die aktuellen Bildschirminhalte reagiert.
Ein wesentlicher Bestandteil der MolmoWeb-Veröffentlichung ist MolmoWebMix, ein umfassender und diverser Datensatz, der speziell für das Training multimodaler Web-Agenten entwickelt wurde. Die Komplexität beim Aufbau von Web-Agenten wird oft durch den Mangel an öffentlich verfügbaren Trainingsdaten erschwert. MolmoWebMix adressiert diese Lücke durch die Kombination verschiedener Datenquellen:
MolmoWebMix ist damit die größte öffentlich zugängliche Sammlung menschlicher Web-Interaktionen, die bislang veröffentlicht wurde.
MolmoWeb wurde auf vier weit verbreiteten Web-Agenten-Benchmarks evaluiert, die die Interaktion mit Live-Websites erfordern: WebVoyager, Online-Mind2Web, DeepShop und WebTailBench. Die Modelle sind in zwei Größen verfügbar: 4 Milliarden (4B) und 8 Milliarden (8B) Parameter.
Die Ergebnisse zeigen, dass beide MolmoWeb-Modelle, trotz ihrer relativ kompakten Größe, State-of-the-Art-Leistungen unter den offenen Web-Agenten erzielen. Das 8B-Modell erreichte beispielsweise 78,2 % auf WebVoyager, 42,3 % auf DeepShop und 49,5 % auf WebTailBench. Es übertraf damit führende Open-Weight-Modelle wie Fara-7B in allen vier Benchmarks. Bemerkenswert ist auch, dass selbst das kleinere 4B-Modell in bestimmten Szenarien Fara-7B übertraf.
Interessanterweise übertraf MolmoWeb auch Agenten, die auf wesentlich größeren, proprietären Modellen wie GPT-4o basieren und auf annotierten Screenshots sowie strukturierten Seitendaten beruhen. Dies wird als signifikantes Ergebnis gewertet, da diese proprietären Modelle über reichhaltigere Eingabedarstellungen und eine um Größenordnungen höhere Parameteranzahl verfügen.
Zusätzlich zur Aufgabenbewältigung zeigte MolmoWeb eine starke visuelle Verankerung, also die Fähigkeit, UI-Elemente präzise auf dem Bildschirm zu lokalisieren. Auf den Benchmarks ScreenSpot und ScreenSpot v2 übertraf ein dediziertes 8B-Verankerungsmodell sogar größere proprietäre Systeme wie Claude 3.7 und OpenAI CUA.
Weitere Analysen zeigten, dass die Durchführung mehrerer unabhängiger Agentenläufe und die Auswahl des besten Ergebnisses die Leistung signifikant verbessern kann. Mit diesem Testzeit-Skalierungsansatz erreichte das 8B-Modell 94,7 % pass@4 auf WebVoyager und 60,5 % auf Online-Mind2Web, was darauf hindeutet, dass zusätzliche Rechenleistung zur Inferenzzeit die Zuverlässigkeit erheblich steigern kann.
Trotz der vielversprechenden Ergebnisse weist MolmoWeb bestimmte Einschränkungen auf. Als rein visuell basiertes Modell kann es Fehler beim Lesen von Text aus Screenshots machen. Auch können inkorrekte Aktionen den Agenten vom Kurs abbringen, beispielsweise das Scrollen, bevor eine Seite vollständig geladen ist, was zum Übersehen relevanter Inhalte führen kann. Die Leistung nimmt ab, wenn Anweisungen mehrdeutig werden oder viele Einschränkungen beinhalten. Bestimmte Aktionen wie das Scrollen innerhalb eines spezifischen Seitenelements oder Drag-and-Drop bleiben weiterhin herausfordernd.
Aus Sicherheits- und Datenschutzgründen wurde MolmoWeb nicht für Aufgaben trainiert, die Anmeldungen oder Finanztransaktionen erfordern. Diese Bereiche stellen aktive Forschungs- und Entwicklungsfelder dar.
Hinsichtlich der Sicherheit wurde MolmoWeb mit Transparenz als Kernziel konzip, wobei jede Komponente zur Überprüfung offensteht. Die gehostete Demo implementiert zusätzliche Schutzmaßnahmen, wie die Beschränkung auf eine Whitelist von Websites, die Verwendung der Google Cloud Natural Language API zur Kennzeichnung unsicherer Abfragen und die Blockierung von Aktionen bei Passwörtern und Kreditkartenfeldern. Diese Einschränkungen sind jedoch spezifisch für die Demo-Umgebung und nicht im Modell selbst verankert, was die Forschungsgemeinschaft dazu anregen soll, weitere Sicherheitsmechanismen zu entwickeln.
MolmoWeb ist über Hugging Face und GitHub verfügbar, zusammen mit allen Trainingsdaten, Evaluierungstools und einer Inferenzbibliothek für den lokalen Betrieb des Modells. Dies ermöglicht Entwicklern die Selbsthosting von MolmoWeb, um alltägliche Browseraufgaben zu automatisieren, wie beispielsweise das Ausführen von Routineaufgaben nach einem festen Zeitplan oder das Sammeln von Informationen über Websites hinweg.
Da die gesamte Trainingspipeline offen ist, können Entwickler das Modell auch mit ihren eigenen Daten feinabstimmen, um es an spezifische Anwendungsfälle anzupassen. Forschende haben die Möglichkeit, jede Komponente zu inspizieren und darauf aufzubauen, um die Wissenschaft multimodaler Web-Agenten voranzutreiben.
Die Bereitstellung leistungsfähiger Agenten im offenen Web wirft auch ungelöste Fragen auf, etwa bezüglich der Einhaltung von Nutzungsbedingungen, des Zugriffs auf illegale Inhalte, der Sicherheit von Finanztransaktionen und des Schutzes persönlicher Informationen. Die Offenheit des Systems soll es mehr Akteuren ermöglichen, an der Beantwortung dieser Fragen und der Entwicklung notwendiger Sicherheitspraktiken für eine vertrauenswürdige Automatisierung im Web mitzuwirken.
MolmoWeb stellt einen Fortschritt dar, indem es multimodale Modelle über das passive Verständnis von Bildern hinaus zu Systemen entwickelt, die auf das, was sie sehen, reagieren können. Die Webplattform ist die größte Softwareplattform der Welt, und Agenten, die sie zuverlässig navigieren können, könnten den Zugang zu Informationen und digitalen Diensten erheblich erweitern.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen