Neuer Bewertungsansatz für KI-generierte Text-Bild-Inhalte

Kategorien:

No items found.

Freigegeben:

November 28, 2024

kostenlos testen KI für Unternehmen Termin buchen

Artikel jetzt als Podcast anhören

Ein neuer Ansatz zur Bewertung von KI-generierten, verschachtelten Text-Bild-Inhalten

Die Generierung von Inhalten, die Text und Bilder nahtlos miteinander verweben, ist ein aufstrebendes Feld der Künstlichen Intelligenz. Anwendungsfälle reichen von detaillierten Anleitungen mit Bildern, ähnlich einem Kochbuch, bis hin zu interaktiven Lernmaterialien. Doch die Bewertung der Qualität und Kohärenz solcher Inhalte gestaltet sich komplex. Ein neuer Forschungsansatz, verkörpert durch das Framework "Interleaved Scene Graph" (ISG), verspricht hier Abhilfe.

Die Herausforderung der Bewertung

Bisherige Bewertungsmethoden für multimodal generierte Inhalte stoßen bei verschachtelten Text-Bild-Sequenzen an ihre Grenzen. Oftmals konzentrieren sie sich auf einzelne Modalitäten oder nutzen Metriken, die die komplexen Beziehungen zwischen Text und Bild nicht ausreichend erfassen. Die Kohärenz, also der logische Zusammenhang zwischen den einzelnen Elementen, sowie die Konsistenz zwischen Text und Bild bleiben dabei oft unberücksichtigt.

ISG: Ein mehrstufiger Bewertungsrahmen

ISG setzt auf eine Szenengraph-Struktur, um die Beziehungen zwischen Text- und Bildblöcken zu erfassen. Dieser Graph bildet die Grundlage für eine mehrstufige Bewertung, die auf vier Granularitätsebenen erfolgt:

Holistisch: Beurteilung des Gesamteindrucks und der Erfüllung der Aufgabenstellung.

Strukturell: Analyse der Beziehungen zwischen Text- und Bildblöcken im Szenengraphen.

Block-Ebene: Bewertung der einzelnen Text- und Bildblöcke auf Kohärenz und Qualität.

Bild-Spezifisch: Detaillierte Analyse der Bilder hinsichtlich ihrer Relevanz und Aussagekraft.

Diese mehrstufige Bewertung ermöglicht eine differenzierte Beurteilung von Konsistenz, Kohärenz und Genauigkeit und liefert interpretierbares Feedback.

ISG-Bench: Ein neuer Benchmark für verschachtelte Inhalte

Um die Leistungsfähigkeit von KI-Modellen zu testen, wurde in Verbindung mit ISG der Benchmark ISG-Bench entwickelt. Dieser umfasst 1.150 Beispiele aus 8 Kategorien und 21 Unterkategorien und deckt komplexe Bild-Text-Abhängigkeiten ab. ISG-Bench beinhaltet auch visuelle Aufgaben wie Stiltransfer, die für aktuelle Modelle eine Herausforderung darstellen.

Erste Ergebnisse und Ausblick

Tests mit ISG-Bench zeigen, dass aktuelle, sogenannte "Unified Vision-Language Models" Schwierigkeiten haben, verschachtelte Inhalte zu generieren. Kompositionelle Ansätze, die separate Sprach- und Bildmodelle kombinieren, schneiden zwar besser ab, erreichen aber noch keine optimalen Ergebnisse. Um die Forschung voranzutreiben, wurde ISG-Agent entwickelt, ein Baseline-Agent, der Werkzeuge über eine "Planen-Ausführen-Optimieren"-Pipeline einsetzt.

ISG und ISG-Bench bieten ein vielversprechendes Framework zur Bewertung von KI-generierten, verschachtelten Text-Bild-Inhalten. Die Ergebnisse der ersten Tests verdeutlichen den Bedarf an weiterer Forschung in diesem Bereich. Mindverse, als Anbieter von KI-gestützten Content-Lösungen, verfolgt diese Entwicklungen mit großem Interesse und sieht in ISG einen wichtigen Schritt zur Verbesserung der Qualität und Kohärenz multimodaler Inhalte.

Bibliographie: Chen, D., et al. (2024). Interleaved Scene Graph for Interleaved Text-and-Image Generation Assessment. arXiv preprint arXiv:2411.17188. Liu, M., et al. (2024). Holistic Evaluation for Interleaved Text-and-Image Generation. arXiv preprint arXiv:2406.14643. Wu, C. (n.d.). Awesome-Scene-Graph-for-CrossModal-Learning. GitHub repository. Virginia Tech NLP Lab. (n.d.). InterleavedEval. Su, H., et al. (2024). Vision Model Pre-training on Interleaved Image-Text Data via Latent Compression Learning. arXiv preprint arXiv:2411.17188. Chen, C., et al. (2023). CoMM: A Coherent Interleaved Image-Text Dataset for Multimodal Understanding and Generation. OpenReview.net. Interleaved Scene Graph for Interleaved Text-and-Image Generation Assessment. ICLR 2025 Conference Submission.

Was bedeutet das?

Mindverse vs ChatGPT Plus Widget

Sie nutzen bereits ChatGPT Plus? Das ist ein guter Anfang! Aber stellen Sie sich vor, Sie hätten Zugang zu allen führenden KI-Modellen weltweit, könnten mit Ihren eigenen Dokumenten arbeiten und nahtlos im Team kollaborieren.

🚀 Mindverse Studio

Die professionelle KI-Plattform für Unternehmen – leistungsstärker, flexibler und sicherer als ChatGPT Plus. Mit über 50 Modellen, DSGVO-konformer Infrastruktur und tiefgreifender Integration in Unternehmensprozesse.

ChatGPT Plus

❌ Kein strukturierter Dokumentenvergleich

❌ Keine Bearbeitung im Dokumentkontext

❌ Keine Integration von Unternehmenswissen

Mindverse Studio

✅ Gezielter Dokumentenvergleich mit Custom-Prompts

✅ Kontextbewusste Textbearbeitung im Editor

✅ Wissensbasierte Analyse & Zusammenfassungen

📚 Nutzen Sie Ihr internes Wissen – intelligent und sicher

Erstellen Sie leistungsstarke Wissensdatenbanken aus Ihren Unternehmensdokumenten.Mindverse Studio verknüpft diese direkt mit der KI – für präzise, kontextbezogene Antworten auf Basis Ihres spezifischen Know-hows.DSGVO-konform, transparent und jederzeit nachvollziehbar.

ChatGPT Plus

❌ Nur ein Modellanbieter (OpenAI)

❌ Keine Modellauswahl pro Use Case

❌ Keine zentrale Modellsteuerung für Teams

Mindverse Studio

✅ Zugriff auf über 50 verschiedene KI-Modelle

✅ Modellauswahl pro Prompt oder Assistent

✅ Zentrale Steuerung auf Organisationsebene

🧠 Zugang zu allen führenden KI-Modellen – flexibel & anpassbar

✓

OpenAI GPT-4: für kreative Texte und allgemeine Anwendungen

✓

Anthropic Claude: stark in Analyse, Struktur und komplexem Reasoning

✓

Google Gemini: ideal für multimodale Aufgaben (Text, Bild, Code)

✓

Eigene Engines: individuell trainiert auf Ihre Daten und Prozesse

ChatGPT Plus

❌ Keine echte Teamkollaboration

❌ Keine Rechte- oder Rollenverteilung

❌ Keine zentrale Steuerung oder Nachvollziehbarkeit

Mindverse Studio

✅ Teamübergreifende Bearbeitung in Echtzeit

✅ Granulare Rechte- und Freigabeverwaltung

✅ Zentrale Steuerung & Transparenz auf Organisationsebene

👥 Kollaborative KI für Ihr gesamtes Unternehmen

Nutzen Sie Mindverse Studio als zentrale Plattform für abteilungsübergreifende Zusammenarbeit.Teilen Sie Wissen, erstellen Sie gemeinsame Workflows und integrieren Sie KI nahtlos in Ihre täglichen Prozesse – sicher, skalierbar und effizient.Mit granularen Rechten, transparenter Nachvollziehbarkeit und Echtzeit-Kollaboration.