Fortschritte bei der Entwicklung omnimodaler KI-Agenten und deren Bewertung

Kategorien:

No items found.

Freigegeben:

February 27, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

OmniGAIA ist ein umfassender Benchmark zur Bewertung omnimodaler KI-Agenten.
Er konzentriert sich auf komplexe Aufgaben, die visuelle, auditive und sprachliche Informationen integrieren.
OmniAtlas, ein darauf basierender Agent, nutzt aktive Wahrnehmung und Werkzeuge zur Problemlösung.
Der Benchmark umfasst 360 Aufgaben aus 9 Domänen mit unterschiedlichen Schwierigkeitsgraden.
98,6 % der Aufgaben erfordern Web-Suche und 74,4 % Code-Ausführung.

Omnimodale KI-Agenten: Ein Schritt zur umfassenden Intelligenz

Die Entwicklung künstlicher Intelligenz schreitet in rasantem Tempo voran. Während multimodale Modelle, die beispielsweise Bild und Sprache verarbeiten können, bereits beeindruckende Fortschritte erzielt haben, strebt die Forschung nun nach „omnimodalen“ KI-Agenten. Diese sollen in der Lage sein, Informationen aus allen verfügbaren Sinneskanälen – Vision, Audio und Sprache – nahtlos zu integrieren und zu verarbeiten, ähnlich wie es die menschliche Intelligenz tut. Ein aktueller Forschungsbeitrag mit dem Titel „OmniGAIA: Towards Native Omni-Modal AI Agents“ beleuchtet diese ambitionierte Vision und stellt einen neuen Benchmark sowie einen darauf basierenden Agenten vor, die einen wichtigen Schritt in diese Richtung darstellen.

Die Herausforderung der Omnimodalität

Bisherige multimodale grosse Sprachmodelle (LLMs) sind primär auf bimodale Interaktionen beschränkt, wie etwa die Kombination von Bild und Sprache. Ihnen fehlt jedoch die vereinheitlichte kognitive Fähigkeit, die für allgemeine KI-Assistenten erforderlich ist, um die Welt auf eine wirklich umfassende Weise zu verstehen und mit ihr zu interagieren. Menschliche Intelligenz zeichnet sich gerade dadurch aus, dass sie visuelle Eindrücke, akustische Signale und sprachliche Informationen miteinander verknüpft, um komplexe Denkprozesse zu ermöglichen und Werkzeuge effektiv einzusetzen. Diese Lücke zu schliessen, ist das zentrale Anliegen des OmniGAIA-Projekts.

OmniGAIA: Ein neuer Massstab für umfassende KI

Um die Fähigkeiten omnimodaler Agenten umfassend zu bewerten, wurde der OmniGAIA-Benchmark entwickelt. Dieser Benchmark ist darauf ausgelegt, Agenten bei Aufgaben zu testen, die tiefgreifende Schlussfolgerungen und die mehrstufige Ausführung von Werkzeugen über Video-, Audio- und Bildmodalitäten hinweg erfordern. Der Ansatz unterscheidet sich von bestehenden Benchmarks, die sich oft auf einzelne Modalitäten oder weniger komplexe, wahrnehmungsbasierte Fragen konzentrieren. OmniGAIA hingegen synthetisiert komplexe, mehrschrittige Anfragen aus realen Daten, die eine medienübergreifende Schlussfolgerung und die Integration externer Werkzeuge notwendig machen.

Aufbau des Benchmarks

Die Konstruktion des OmniGAIA-Benchmarks erfolgte in vier Hauptphasen:

Datensammlung: Videos (mit Audio) sowie Bild- und Audioquellen wurden aus verschiedenen Datensätzen wie FineVideo, LongVideoBench, LongVideo-Reason, COCO 2017 und HuggingFace kuratiert. Diese Quellen decken über 100 verschiedene Domänen ab, um eine breite Abdeckung realer Szenarien zu gewährleisten.
Entdeckung wertvoller Informationen: Mithilfe von Gemini-3-Flash wurden Ereignisse, Umfeldanalysen, Audioanalysen (ASR, Sprecher-ID) und Bildverständnis (OCR, Objekte, Gesichter) extrahiert. Dies ermöglichte die Identifizierung relevanter Datenpunkte über verschiedene Modalitäten hinweg.
Konstruktion eines agentischen omnimodalen Ereignisgraphen: DeepSeek-V3.2 wurde eingesetzt, um einen anfänglichen Ereignisgraphen iterativ zu erweitern. Dies umfasste die Planung nächster Schritte, die Beschaffung neuer Informationen mittels Werkzeugen und die Überprüfung der faktischen Korrektheit durch LLM-Selbstreflexion und menschliche Überprüfung.
Generierung von QA-Paaren und Qualitätsprüfung: Es wurden anspruchsvolle, mehrschrittige Frage-Antwort-Paare durch „Event Fuzzification“ generiert. Anschliessend erfolgte eine LLM- und menschliche Verifizierung hinsichtlich Korrektheit, Aufgabenschwierigkeit und Einzigartigkeit der Antworten.

Statistik des Benchmarks

OmniGAIA umfasst:

360 Frage-Antwort-Paare aus 9 Domänen (Geographie, Geschichte, Technologie, Sport, Kunst, Filme, Wissenschaft, Finanzen, Ernährung).
3 Schwierigkeitsgrade: Leicht (33,9 %), Mittel (44,4 %), Schwer (21,7 %).
Die mittlere Videodauer beträgt 242,2 Sekunden, die mittlere Audiodauer 197,0 Sekunden.
99,7 % der Aufgaben erfordern visuelle Wahrnehmung, und ebenfalls 99,7 % erfordern auditive Wahrnehmung.
Bemerkenswert ist, dass 98,6 % der Aufgaben eine Web-Suche und 74,4 % die Ausführung von Code oder Berechnungen erfordern. Dies unterstreicht den Fokus des Benchmarks auf komplexe, werkzeuggestützte Problemlösung.

OmniAtlas: Ein nativer omnimodaler Basisagent

Neben dem Benchmark stellen die Forscher auch OmniAtlas vor, einen nativen omnimodalen Basisagenten. Dieser Agent operiert unter einem werkzeugintegrierten Denkparadigma mit aktiver omnimodaler Wahrnehmung. OmniAtlas wurde auf Trajektorien trainiert, die mittels einer "Hindsight-Guided Tree Exploration"-Strategie synthetisiert wurden, und nutzt OmniDPO zur feinkörnigen Fehlerkorrektur. Dadurch wird die Werkzeugnutzungsfähigkeit bestehender Open-Source-Modelle effektiv verbessert.

OmniAtlas ist darauf ausgelegt, ein Basis-LLM mit "aktiver Wahrnehmung" auszustatten. Dies bedeutet, dass das Modell in der Lage ist, während eines mehrstufigen Denkprozesses aktiv zusätzliche Mediensegmente anzufordern und zu untersuchen. Dies ist ein entscheidender Fortschritt gegenüber passiven Systemen, die lediglich die ihnen präsentierten Daten verarbeiten.

Werkzeuge und Fähigkeiten

OmniGAIA-Agenten sind mit einer Reihe externer Werkzeuge ausgestattet, die für die Bewältigung komplexer Aufgaben unerlässlich sind:

Web-Suche: Google-Suche über die Serper API mit Ergebnis-Caching.
Seiten-Browser: Abrufen und Extrahieren von Webinhalten über die Jina Reader API.
Code-Executor: Ausführung von Python-Code in einer Sandbox mit gängigen wissenschaftlichen Bibliotheken.
Aktive Wahrnehmung (nur OmniAtlas): Werkzeuge wie read_video, read_audio, read_image ermöglichen es dem Agenten, spezifische Mediensegmente während des Denkprozesses anzufordern.

Ausblick und Implikationen für die KI-Entwicklung

Die Arbeit an OmniGAIA und OmniAtlas markiert einen bedeutenden Schritt hin zu KI-Assistenten der nächsten Generation, die in realen Szenarien eine umfassende, menschliche Intelligenz nachbilden können. Die Fähigkeit, nahtlos zwischen verschiedenen Modalitäten zu wechseln, komplexe Schlussfolgerungen zu ziehen und externe Werkzeuge effektiv zu nutzen, ist entscheidend für die Entwicklung allgemeiner KI. Für B2B-Anwendungen, insbesondere in Bereichen wie Content-Erstellung, Forschung und Datenanalyse, eröffnen omnimodale Agenten neue Möglichkeiten. Sie könnten beispielsweise komplexe Produktvideos analysieren, relevante akustische Hinweise extrahieren und diese mit schriftlichen Spezifikationen verknüpfen, um detaillierte Berichte oder Marketingmaterialien zu generieren. Dies würde die Effizienz und Qualität der Content-Produktion erheblich steigern und Unternehmen dabei unterstützen, tiefere Einblicke aus ihren heterogenen Daten zu gewinnen.

Die Forschung zeigt, dass die Integration von aktiver Wahrnehmung und Werkzeugnutzung in multimodale Modelle deren Leistungsfähigkeit erheblich steigert. Dies ist besonders relevant für Anwendungen, die über einfache Abfragen hinausgehen und ein echtes Verständnis der Umgebung erfordern. Die kontinuierliche Verbesserung solcher Agenten wird nicht nur die Grenzen dessen verschieben, was KI leisten kann, sondern auch neue Möglichkeiten für die Zusammenarbeit zwischen Mensch und Maschine schaffen.