Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Landschaft der Künstlichen Intelligenz (KI) durchläuft eine signifikante Transformation. Multimodale große Sprachmodelle (MLLMs), die bisher vorrangig als passive Informationsverarbeiter agierten, entwickeln sich zunehmend zu aktiven Agenten. Diese Agenten sind in der Lage, Probleme nicht nur durch die Interpretation statischer Daten zu lösen, sondern durch die aktive Manipulation visueller Informationen und die gezielte Nutzung externer Wissensquellen. Die wahre Stärke dieser Entwicklung liegt in der "agentischen Fähigkeit" – der Möglichkeit, autonom zu handeln, zu planen und Werkzeuge zu nutzen, um komplexe, reale Aufgaben zu bewältigen.
Traditionelle MLLMs konnten zwar Text und Bilder verarbeiten, ihre Interaktion beschränkte sich jedoch oft auf eine reine Frage-Antwort-Logik. Mit dem Aufkommen agentischer Fähigkeiten vollzieht sich ein Paradigmenwechsel. Modelle wie Skywork-R1V4 oder die Gemini-Familie zeigen, dass KI-Systeme nunmehr in der Lage sind, Bilder aktiv zu transformieren und zu analysieren (Visual Expansion) sowie externe Informationen über Websuchen zu integrieren (Knowledge Expansion). Diese symbiotische Verbindung ermöglicht es, latente Hinweise in Bildern aufzudecken, Fakten zu verifizieren und Ambiguitäten aufzulösen, die über den visuellen Inhalt hinausgehen.
Bisherige Evaluierungsmethoden für MLLMs weisen jedoch Defizite auf. Sie integrieren Werkzeuge oft unflexibel, testen visuelle Funktionen und Websuchen isoliert voneinander und konzentrieren sich primär auf die Korrektheit der Endergebnisse. Dies erschwert die Diagnose, ob Werkzeuge tatsächlich korrekt und effizient eingesetzt wurden oder ob Fehler in der Planung oder Ausführung der Zwischenschritte liegen.
Um diese Lücken zu schließen, wurde Agentic-MME entwickelt – ein prozessverifizierbarer Benchmark, der die multimodalen agentischen Fähigkeiten ganzheitlich und synergistisch bewertet. Agentic-MME umfasst 418 reale Aufgaben aus sechs Domänen und drei Schwierigkeitsgraden. Der Benchmark zeichnet sich durch über 2.000 schrittweise Checkpoints aus, die jeweils mehr als 10 Personenstunden manueller Annotation erforderten. Jede Aufgabe ist mit einem einheitlichen Evaluationsframework ausgestattet, das sowohl die Ausführung von Code in einer Sandbox als auch strukturierte Tool-APIs unterstützt, sowie mit einer menschlichen Referenztrajektorie, die entlang einer S-Achse (Strategie/Wissensexpansion) und einer V-Achse (Visueller Nachweis) annotiert ist.
Die Aufgaben in Agentic-MME sind in drei Schwierigkeitsgrade unterteilt, die die Komplexität der Interaktion widerspiegeln:
- Level 1 (Fokus auf Visual Expansion): Aufgaben, die eine einzelne visuelle Operation erfordern (z.B. Zuschneiden eines Bildes), um grundlegende Wahrnehmungs-Aktions-Schleifen zu testen. - Level 2 (Visual Expansion + Knowledge Expansion): Aufgaben, die eine einfache Kombination von visueller und Wissensexpansion erfordern. Agenten extrahieren visuelle Hinweise und nutzen Web-Suchen zur Faktenüberprüfung. Diese Aufgaben sind typischerweise in wenigen Interaktionsrunden lösbar. - Level 3 (Synergistische Kopplung): Anspruchsvolle, realitätsnahe Szenarien, die eine iterative, verschränkte Ausführung von visuellen und Suchwerkzeugen verlangen. Hier müssen Agenten vorläufige visuelle Hinweise extrahieren, diese zur Validierung im Web abfragen und das gewonnene Wissen nutzen, um weitere visuelle Operationen zu steuern. Ein Beispiel hierfür wäre die Identifizierung eines unscharfen Logos, das sowohl Bildbearbeitung als auch mehrstufige Websuchen erfordert.Agentic-MME geht über die reine Bewertung der Endergebnisse hinaus, indem es fein granulierte Zwischenzustände prüft. Die S-Achse auditierte die Wissensexpansion, indem sie suchbezogene Strategien, verwendete Keywords und die Korrektheit der abgerufenen Zwischenantworten bewertet. Die V-Achse überprüft die visuelle Expansion, indem sie sowohl die Absicht zur Tool-Nutzung als auch die Treue der generierten visuellen Artefakte bewertet. Zusätzlich wird die Effizienz durch eine "Overthinking"-Metrik quantifiziert, die redundante Aktionen im Vergleich zu menschlichen Referenztrajektorien bestraft.
Die umfassende Evaluierung verschiedener Modelle, darunter proprietäre wie Gemini 3 Pro und Open-Source-Modelle wie Qwen3 VL-235B, liefert aufschlussreiche Erkenntnisse:
Alle getesteten Modelle liegen deutlich unter der menschlichen Leistung. Während menschliche Experten eine Genauigkeit von 93,8 % erreichen, liegt das beste Modell, Gemini 3 Pro (Atm), bei 56,3 % insgesamt und fällt bei Level-3-Aufgaben auf 33,3 % ab. Dies verdeutlicht, dass selbst fortschrittliche Modelle bei komplexen, realen Problemlösungen noch erhebliche Schwierigkeiten mit mehrstufiger Planung und zuverlässiger Werkzeugausführung haben.
Proprietäre Modelle übertreffen Open-Source-Alternativen konsistent. Dieser Unterschied ist besonders ausgeprägt bei Level-3-Aufgaben, wo Open-Source-Modelle wie Thyme-rl und Deepeyesv2 bei der Formulierung von Suchanfragen und der Extraktion nützlicher Zwischenantworten fast vollständig versagen. Dies deutet darauf hin, dass Open-Source-Modelle zwar Werkzeuge aufrufen können, aber noch nicht die Planungsfähigkeiten für eine zuverlässige mehrstufige Problemlösung besitzen.
Modelle, die strukturierte Tool-APIs nutzen (Atomic-Modus), erzielen tendenziell bessere Ergebnisse als jene, die freien Code generieren (Code-Modus). Dies liegt daran, dass Codegenerierung eine höhere kognitive Belastung für die Modelle darstellt, da sie sich um Bibliotheksimporte, Dateieingabe/-ausgabe und Fehlerbehebung kümmern müssen. Der Code-Modus bietet jedoch ungenutztes Potenzial für flexible, benutzerdefinierte Transformationen, die über vordefinierte Tools hinausgehen.
Die detaillierte Fehleranalyse zeigt, dass Modelle oft zögerlich agieren, indem sie passive Raten anstelle aktiver Bildmanipulation bevorzugen. Starke Agenten neigen zudem zu "Overthinking Collapse", bei dem sie in redundanten Tool-Aufrufschleifen gefangen sind. Ungenaue Ausführung, wie das Zuschneiden irrelevanter Regionen, ist ebenfalls ein persistentes Problem. Strukturierte APIs können jedoch syntaxbezogene Fehler reduzieren.
Die Ergebnisse des Agentic-MME Benchmarks unterstreichen die Notwendigkeit, sich auf die Entwicklung robusterer multimodaler Agenten zu konzentrieren. Die Herausforderungen liegen nicht nur in der Verbesserung der einzelnen Fähigkeiten – sei es visuelle Analyse oder Websuche – sondern vor allem in deren synergetischer und effizienter Koordination über mehrere Schritte hinweg. Für Mindverse als KI-Partner, der umfassende KI-Tools anbietet, bedeutet dies eine kontinuierliche Weiterentwicklung der Modelle, um diesen komplexen Anforderungen gerecht zu werden und unseren B2B-Kunden Werkzeuge an die Hand zu geben, die eine echte agentische Problemlösung ermöglichen.
Die Forschung muss sich auf folgende Bereiche konzentrieren:
- Verbesserung der mehrstufigen Planung: Entwicklung von Modellen, die komplexe Aufgaben in kohärente Aktionssequenzen zerlegen und dabei Zwischenergebnisse effektiv nutzen können. - Zuverlässige Tool-Ausführung: Sicherstellung, dass Tools präzise und zielgerichtet eingesetzt werden, um Fehler und redundante Aktionen zu minimieren. - Effizientes Wissensmanagement: Optimierung der Integration von visuellen und externen Wissensquellen, um Ambiguitäten zu reduzieren und die Entscheidungsfindung zu verbessern. - Überbrückung der Lücke zwischen Code- und Atomic-Modus: Erforschung von Methoden, die die Flexibilität der Codegenerierung mit der Zuverlässigkeit strukturierter APIs verbinden.Agentic-MME bietet eine wichtige diagnostische Roadmap, um die Engpässe multimodaler Intelligenz präzise zu identifizieren und den Weg für die nächste Generation von robusten, langfristig denkenden multimodalen Agenten zu ebnen, die visuelles und wissensbasiertes Denken auf komplexe Weise miteinander verbinden können.
Bibliography: - Wei, Q., Yang, Y., Wang, S., Chen, J., Wang, B., Wang, J., ... & Zhang, Y.-F. (2026). Agentic-MME: What Agentic Capability Really Brings to Multimodal Intelligence?. arXiv preprint arXiv:2604.03016. - AI Research Roundup. (2026, April 5). Agentic-MME: New Benchmark for MLLM Agents [Video]. YouTube. - Yao, H., Zhang, R., Huang, J., Zhang, J., Wang, Y., Fang, B., ... & Tao, D. (2025). A Survey on Agentic Multimodal Large Language Models. arXiv preprint arXiv:2510.10991. - Microsoft Reactor. (2026, March 31). Episode 4: Agentic AI & The Multimodal Frontier [Video]. YouTube. - Skywork-R1V4: Toward Agentic Multimodal Intelligence through Interleaved Thinking with Images and DeepResearch. (n.d.). arXiv preprint arXiv:2512.02395.Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen