Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Die Generierung von Inhalten, die Text und Bilder nahtlos miteinander verweben, ist ein aufstrebendes Feld der Künstlichen Intelligenz. Anwendungsfälle reichen von detaillierten Anleitungen mit Bildern, ähnlich einem Kochbuch, bis hin zu interaktiven Lernmaterialien. Doch die Bewertung der Qualität und Kohärenz solcher Inhalte gestaltet sich komplex. Ein neuer Forschungsansatz, verkörpert durch das Framework "Interleaved Scene Graph" (ISG), verspricht hier Abhilfe.
Bisherige Bewertungsmethoden für multimodal generierte Inhalte stoßen bei verschachtelten Text-Bild-Sequenzen an ihre Grenzen. Oftmals konzentrieren sie sich auf einzelne Modalitäten oder nutzen Metriken, die die komplexen Beziehungen zwischen Text und Bild nicht ausreichend erfassen. Die Kohärenz, also der logische Zusammenhang zwischen den einzelnen Elementen, sowie die Konsistenz zwischen Text und Bild bleiben dabei oft unberücksichtigt.
ISG setzt auf eine Szenengraph-Struktur, um die Beziehungen zwischen Text- und Bildblöcken zu erfassen. Dieser Graph bildet die Grundlage für eine mehrstufige Bewertung, die auf vier Granularitätsebenen erfolgt:
Holistisch: Beurteilung des Gesamteindrucks und der Erfüllung der Aufgabenstellung.
Strukturell: Analyse der Beziehungen zwischen Text- und Bildblöcken im Szenengraphen.
Block-Ebene: Bewertung der einzelnen Text- und Bildblöcke auf Kohärenz und Qualität.
Bild-Spezifisch: Detaillierte Analyse der Bilder hinsichtlich ihrer Relevanz und Aussagekraft.
Diese mehrstufige Bewertung ermöglicht eine differenzierte Beurteilung von Konsistenz, Kohärenz und Genauigkeit und liefert interpretierbares Feedback.
Um die Leistungsfähigkeit von KI-Modellen zu testen, wurde in Verbindung mit ISG der Benchmark ISG-Bench entwickelt. Dieser umfasst 1.150 Beispiele aus 8 Kategorien und 21 Unterkategorien und deckt komplexe Bild-Text-Abhängigkeiten ab. ISG-Bench beinhaltet auch visuelle Aufgaben wie Stiltransfer, die für aktuelle Modelle eine Herausforderung darstellen.
Tests mit ISG-Bench zeigen, dass aktuelle, sogenannte "Unified Vision-Language Models" Schwierigkeiten haben, verschachtelte Inhalte zu generieren. Kompositionelle Ansätze, die separate Sprach- und Bildmodelle kombinieren, schneiden zwar besser ab, erreichen aber noch keine optimalen Ergebnisse. Um die Forschung voranzutreiben, wurde ISG-Agent entwickelt, ein Baseline-Agent, der Werkzeuge über eine "Planen-Ausführen-Optimieren"-Pipeline einsetzt.
ISG und ISG-Bench bieten ein vielversprechendes Framework zur Bewertung von KI-generierten, verschachtelten Text-Bild-Inhalten. Die Ergebnisse der ersten Tests verdeutlichen den Bedarf an weiterer Forschung in diesem Bereich. Mindverse, als Anbieter von KI-gestützten Content-Lösungen, verfolgt diese Entwicklungen mit großem Interesse und sieht in ISG einen wichtigen Schritt zur Verbesserung der Qualität und Kohärenz multimodaler Inhalte.
Bibliographie: Chen, D., et al. (2024). Interleaved Scene Graph for Interleaved Text-and-Image Generation Assessment. arXiv preprint arXiv:2411.17188. Liu, M., et al. (2024). Holistic Evaluation for Interleaved Text-and-Image Generation. arXiv preprint arXiv:2406.14643. Wu, C. (n.d.). Awesome-Scene-Graph-for-CrossModal-Learning. GitHub repository. Virginia Tech NLP Lab. (n.d.). InterleavedEval. Su, H., et al. (2024). Vision Model Pre-training on Interleaved Image-Text Data via Latent Compression Learning. arXiv preprint arXiv:2411.17188. Chen, C., et al. (2023). CoMM: A Coherent Interleaved Image-Text Dataset for Multimodal Understanding and Generation. OpenReview.net. Interleaved Scene Graph for Interleaved Text-and-Image Generation Assessment. ICLR 2025 Conference Submission.Entdecken Sie die Vorteile gegenüber ChatGPT Plus
Sie nutzen bereits ChatGPT Plus? Das ist ein guter Anfang! Aber stellen Sie sich vor, Sie hätten Zugang zu allen führenden KI-Modellen weltweit, könnten mit Ihren eigenen Dokumenten arbeiten und nahtlos im Team kollaborieren.
Die professionelle KI-Plattform für Unternehmen – leistungsstärker, flexibler und sicherer als ChatGPT Plus. Mit über 50 Modellen, DSGVO-konformer Infrastruktur und tiefgreifender Integration in Unternehmensprozesse.
❌ Kein strukturierter Dokumentenvergleich
❌ Keine Bearbeitung im Dokumentkontext
❌ Keine Integration von Unternehmenswissen
✅ Gezielter Dokumentenvergleich mit Custom-Prompts
✅ Kontextbewusste Textbearbeitung im Editor
✅ Wissensbasierte Analyse & Zusammenfassungen
Erstellen Sie leistungsstarke Wissensdatenbanken aus Ihren Unternehmensdokumenten.Mindverse Studio verknüpft diese direkt mit der KI – für präzise, kontextbezogene Antworten auf Basis Ihres spezifischen Know-hows.DSGVO-konform, transparent und jederzeit nachvollziehbar.
❌ Nur ein Modellanbieter (OpenAI)
❌ Keine Modellauswahl pro Use Case
❌ Keine zentrale Modellsteuerung für Teams
✅ Zugriff auf über 50 verschiedene KI-Modelle
✅ Modellauswahl pro Prompt oder Assistent
✅ Zentrale Steuerung auf Organisationsebene
❌ Keine echte Teamkollaboration
❌ Keine Rechte- oder Rollenverteilung
❌ Keine zentrale Steuerung oder Nachvollziehbarkeit
✅ Teamübergreifende Bearbeitung in Echtzeit
✅ Granulare Rechte- und Freigabeverwaltung
✅ Zentrale Steuerung & Transparenz auf Organisationsebene
Nutzen Sie Mindverse Studio als zentrale Plattform für abteilungsübergreifende Zusammenarbeit.Teilen Sie Wissen, erstellen Sie gemeinsame Workflows und integrieren Sie KI nahtlos in Ihre täglichen Prozesse – sicher, skalierbar und effizient.Mit granularen Rechten, transparenter Nachvollziehbarkeit und Echtzeit-Kollaboration.
Sehen Sie Mindverse Studio in Aktion. Buchen Sie eine persönliche 30-minütige Demo.
🎯 Kostenlose Demo buchenLernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen