Mario: Ein neues Framework zur Verbesserung multimodaler Schlussfolgerungen mit großen Sprachmodellen

Kategorien:

No items found.

Freigegeben:

March 9, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Der schnelle Überblick

Mario ist ein neuartiges Framework zur Verbesserung der Schlussfolgerungsfähigkeiten von großen Sprachmodellen (LLMs) auf multimodalen Graphen (MMGs).
Es adressiert zwei zentrale Herausforderungen: schwache konsistente Daten über verschiedene Modalitäten hinweg (z.B. Text und Bild) und unterschiedliche Präferenzen für Modalitäten bei einzelnen Knotenpunkten.
Das Framework besteht aus zwei Stufen: einem graphenkonditionierten Vision-Language Model (GVLM) für strukturbewusste Bild-Text-Ausrichtung und einem modalitätsadaptiven Graph Instruction Tuning mit einem lernfähigen Router.
Mario übertrifft bestehende Modelle in Aufgaben wie der Knotenklassifizierung und Link-Vorhersage, sowohl in überwachten als auch in Zero-Shot-Szenarien.
Die Forschungsergebnisse zeigen eine signifikante Verbesserung der Generalisierungsfähigkeit und Robustheit von LLMs bei der Verarbeitung komplexer, multimodaler Datenstrukturen.

Mario: Ein Framework für multimodales Graphen-Schlussfolgern mit großen Sprachmodellen

Die fortschreitende Entwicklung großer Sprachmodelle (LLMs) hat neue Möglichkeiten für multimodale Schlussfolgerungen eröffnet. Bestehende Ansätze stützen sich jedoch oft auf vortrainierte Vision-Language Models (VLMs), die Bild-Text-Paare isoliert verarbeiten. Dies vernachlässigt die intrinsische relationale Struktur, die reale multimodale Daten naturgemäß aufweisen. Diese Erkenntnis motiviert die Forschung im Bereich des Schlussfolgerns auf multimodalen Graphen (MMGs), bei denen jeder Knoten sowohl textuelle als auch visuelle Attribute besitzt und Kanten strukturelle Hinweise liefern.

Die Ermöglichung von LLM-basiertem Schlussfolgern auf solch heterogenen multimodalen Signalen bei gleichzeitiger Bewahrung der Graphentopologie stellt zwei wesentliche Herausforderungen dar: die Bewältigung einer oft schwachen konsistenten Daten über verschiedene Modalitäten hinweg und der Umgang mit heterogenen Modalitätspräferenzen. Um diese Probleme zu adressieren, wurde Mario vorgeschlagen, ein vereinheitlichtes Framework, das beide Herausforderungen gleichzeitig löst und effektives LLM-basiertes Schlussfolgern über MMGs ermöglicht.

Die Architektur von Mario: Zwei innovative Stufen

Mario ist in zwei Hauptstufen unterteilt, die jeweils spezifische Probleme im Umgang mit multimodalen Graphen lösen:

1. Graphenkonditioniertes Vision-Language Model (GVLM)

Die erste Stufe von Mario konzentriert sich auf die Verbesserung der konsistenten Daten über verschiedene Modalitäten hinweg. Traditionelle VLMs behandeln Bilder und Texte oft als separate Einheiten. In realen MMGs können jedoch die Bild- und Textinformationen eines Knotens unvollständig, verrauscht oder semantisch nicht vollständig synchronisiert sein. Dies führt zu einer schwachen konsistenten Daten über verschiedene Modalitäten hinweg, die das Schlussfolgern erschwert.

Mario begegnet diesem Problem durch ein graphenkonditioniertes VLM-Design. Dieses Design verfeinert textuelle und visuelle Merkmale gemeinsam mittels eines feingranularen, modalitätsübergreifenden, kontrastiven Lernansatzes, der durch die Graphentopologie geleitet wird. Das bedeutet, dass das Modell nicht nur die Ähnlichkeit zwischen den Modalitäten eines einzelnen Knotens betrachtet, sondern auch die strukturellen Beziehungen zu benachbarten Knoten einbezieht. Dadurch werden die Repräsentationen von Text und Bild besser aufeinander abgestimmt und um kontextuelle Informationen aus dem Graphen angereichert. Dies führt zu „strukturbewussten, modalitätsübergreifend kohärenten Knotenrepräsentationen“.

2. Modalitätsadaptives Graph Instruction Tuning

Nachdem die konsistenten Daten über verschiedene Modalitäten hinweg in der ersten Stufe verbessert wurden, widmet sich die zweite Stufe der Herausforderung der heterogenen Modalitätspräferenzen. In MMGs kann die Informationsdichte und Relevanz jeder Modalität stark variieren. Einige Knoten sind textuell reichhaltig beschrieben, während andere stark von visuellen Hinweisen abhängen. Eine "Einheitsgröße für alle" (One-size-fits-all) Prompting-Strategie für LLMs würde diese unterschiedlichen Präferenzen ignorieren und somit die Leistung beeinträchtigen.

Hier setzt der modalitätsadaptive Graph Instruction Tuning-Mechanismus an. Dieser Mechanismus organisiert die bereits ausgerichteten multimodalen Merkmale in graphenbewusste Instruktionsansichten. Ein lernfähiger Router wird eingesetzt, um für jeden Knoten und seine Umgebung die informativste Modalitätskonfiguration für das LLM zu identifizieren und zu nutzen. Der Router lernt dynamisch, welche Modalität (Text, Bild oder beides) für eine bestimmte Aufgabe und einen bestimmten Knoten am relevantesten ist. Dies ermöglicht es dem LLM, sich auf die aussagekräftigsten Informationen zu konzentrieren und rauschbehaftete oder weniger relevante Modalitäten zu unterdrücken.

Experimentelle Ergebnisse und deren Implikationen

Umfassende Experimente auf verschiedenen MMG-Benchmarks, darunter E-Commerce-Datensätze (Amazon-Arts&Crafts, Amazon-CDs&Vinyl, Amazon-Movies, Amazon-Toys), soziale Netzwerke (Reddit-S) und Literatur (Goodreads), zeigen die Leistungsfähigkeit von Mario. Die Ergebnisse demonstrieren, dass Mario die Leistungsfähigkeit von hochmodernen Graphenmodellen sowohl in überwachten als auch in Zero-Shot-Szenarien für Aufgaben wie die Knotenklassifizierung und Link-Vorhersage durchweg übertrifft.

Wichtige Beobachtungen aus den Experimenten:

Überlegene Leistung: Mario erzielt die höchste Genauigkeit in allen Datensätzen und Aufgaben. Beispielsweise konnte die NC-Leistung auf dem CDs-Datensatz von 56,45 % auf 63,43 % gesteigert werden, und die Link-Vorhersage verbesserte sich durchschnittlich um 4,73 % über vier Datensätze hinweg.
Effektivität der direkten multimodalen Interpretation: Die direkte Interpretation von ausgerichteten multimodalen Merkmalen mit strukturellen Informationen durch LLMs ist effektiver als die Augmentierung von Eingaben durch Bild-zu-Text-Konvertierung. Augmented GraphLLMs, die Bildbeschreibungen in Text umwandeln, zeigten eine deutlich geringere Leistung als Mario.
Generalisierungsfähigkeit und Übertragbarkeit: Mario zeigt eine robuste Zero-Shot-Schlussfolgerung in MMGs und übertrifft Baselines deutlich. Dies wird auf das GVLM zurückgeführt, das grapheninvariante Semantiken über Modalitäten hinweg bewahrt, und auf den modalitätsadaptiven Router, der eine übertragbare induktive Verzerrung erzeugt, indem er dynamisch die informativste Prompt-Konfiguration pro Knoten auswählt – selbst in unbekannten Graphentopologien.
Vorteile des GVLM-Designs: Eine feingranulare Ausrichtung von strukturierten Bild-Text-Merkmalen führt zu einem stärkeren LLM-Schlussfolgern als globale oder strukturbewusste Ausrichtungen. Mario's GVLM übertrifft GNNs und MLPs in allen Datensätzen, mit einem durchschnittlichen Zuwachs von bis zu +5,15 % auf dem Movies-Datensatz.
Effizienz des Modality-Adaptive Graph Instruction Tuning: LLMs mit diesem Tuning-Ansatz zeigen eine deutlich schnellere Konvergenz und übertreffen alle Single-Template-Ansätze. Obwohl eine Epoche bei Mario länger dauert, ermöglicht die beschleunigte Konvergenz eine vergleichbare Gesamtzeit.
Homophilie-Muster der Modalitätspräferenzen: Die Modalitätspräferenzen in MMGs folgen weitgehend einem Homophilie-Muster. Knoten mit ähnlichen bevorzugten Modalitäten bilden oft kleine Cluster, was darauf hindeutet, dass benachbarte Knoten gemeinsame semantische Attribute teilen.

Fazit

Die Arbeit an Mario beleuchtet zwei bisher wenig erforschte Herausforderungen im MMG-Schlussfolgern: die schwache konsistente Daten über verschiedene Modalitäten hinweg und die heterogenen Modalitätspräferenzen. Durch die Einführung eines neuartigen, zweistufigen Frameworks, das strukturbewusste Bild-Text-Ausrichtung mit einem graphenkonditionierten Vision-Language Model durchführt und anschließend modalitätsadaptives Graph Instruction Tuning über einen lernfähigen Router anwendet, der knotenspezifisches Routing lernt, um die Modalitätspräferenzen der Knoten zu erfüllen, setzt Mario neue Maßstäbe. Die umfassenden Experimente auf verschiedenen MMG-Benchmarks bestätigen, dass Mario bestehende Ansätze durchweg übertrifft und ein zuverlässigeres multimodales Graphen-Schlussfolgern ermöglicht. Diese Forschung ebnet den Weg für zukünftige Fortschritte im LLM-basierten multimodalen Graphen-Schlussfolgern.

Bibliographie

- Sun, Y., Li, K., Guo, P., Liu, J., & Tan, Q. (2026). Mario: Multimodal Graph Reasoning with Large Language Models. arXiv preprint arXiv:2603.05181. - Sun, Y., Li, K., Guo, P., Liu, J., & Tan, Q. (2026). Multimodal Graph Reasoning with Large Language Models. arXiv preprint arXiv:2603.05181v1. - Lee, J. (2024). Multimodal Reasoning with Multimodal Knowledge Graph. arXiv preprint arXiv:2406.02030. - Lee, J., Wang, Y., Li, J., & Zhang, M. (2024). Multimodal Reasoning with Multimodal Knowledge Graph. Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 10767–10782. - Wang, X., Zhang, Z., Xiao, L., Chen, H., Ge, C., & Zhu, W. (2025). Towards Multimodal Graph Large Language Model. arXiv preprint arXiv:2506.09738. - Sudhakaran, S., González-Duque, M., Glanois, C., Freiberger, M., Najarro, E., & Risi, S. (2023). MarioGPT: Open-Ended Text2Level Generation through Large Language Models. arXiv preprint arXiv:2302.05981. - Asjad, M. (2024). Integrating Large Language Models with Graph Machine Learning: A Comprehensive Review. MarkTechPost. - HKUDS/Awesome-LLM4Graph-Papers. (n.d.). GitHub repository.