Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Künstliche Intelligenz (KI) hat in den letzten Jahren enorme Fortschritte gemacht, insbesondere im Bereich der visuellen Sprachmodelle (VLMs). Diese Modelle sind in der Lage, Bilder zu "verstehen" und zu interpretieren, was zu beeindruckenden Anwendungen in Bereichen wie der automatischen Bildbeschreibung und der Objekterkennung geführt hat. Doch trotz dieser Fortschritte bleibt eine entscheidende Fähigkeit von VLMs noch weitgehend unerforscht: die Fähigkeit zum abduktiven Schlussfolgern.
Abduktives Schlussfolgern, auch bekannt als Schlussfolgern auf die beste Erklärung, ist ein Denkprozess, bei dem aus gegebenen Beobachtungen die plausibelste Erklärung abgeleitet wird. Stellen Sie sich vor, Sie sehen einen nassen Boden. Die plausibelste Erklärung dafür wäre, dass es geregnet hat. Natürlich könnte es auch andere Erklärungen geben, z. B. ein Rohrbruch oder jemand, der Wasser verschüttet hat. Aber abduktives Schlussfolgern konzentriert sich auf die wahrscheinlichste Ursache.
Für VLMs stellt abduktives Schlussfolgern eine besondere Herausforderung dar. Während Menschen in der Lage sind, ihr Weltwissen und ihren gesunden Menschenverstand zu nutzen, um plausible Erklärungen für visuelle Szenen abzuleiten, fehlt VLMs oft dieser Kontext. Sie "sehen" zwar die Bilder, können aber die zugrunde liegenden Beziehungen und Implikationen nicht immer verstehen.
Um die Fähigkeit von VLMs zum abduktiven Schlussfolgern zu bewerten, wurde ein neuer Benchmark namens NL-Eye entwickelt. NL-Eye basiert auf dem Konzept des abduktiven Natural Language Inference (NLI), bei dem ein Modell die Plausibilität von Hypothesen auf der Grundlage eines gegebenen Textes bewerten muss. NL-Eye überträgt dieses Konzept auf den visuellen Bereich.
NL-Eye besteht aus einer Reihe von Bildtriplets. Jedes Triplett umfasst:
Die Aufgabe des VLM besteht darin, zu entscheiden, welches der beiden Hypothesebilder plausibler ist, d. h. welches Szenario eher auf das Prämissenbild folgt oder durch dieses verursacht wurde. Zusätzlich soll das VLM seine Entscheidung erklären.
Stellen Sie sich ein Prämissenbild vor, das einen Mann mit einem Gipsbein zeigt. Die beiden Hypothesebilder zeigen:
Ein Mensch würde wahrscheinlich Hypothese 1 als plausibler einstufen. Der Mann könnte auf dem nassen Boden ausgerutscht und sich das Bein gebrochen haben. Die Abwesenheit eines Warnschilds würde die Wahrscheinlichkeit eines Sturzes weiter erhöhen.
NL-Eye stellt VLMs vor eine Reihe von Herausforderungen:
Erste Experimente mit NL-Eye haben gezeigt, dass aktuelle VLMs noch Schwierigkeiten mit dem abduktiven Schlussfolgern haben. Während Menschen in der Lage sind, die plausibleren Hypothesen in den meisten Fällen korrekt zu identifizieren, liegen VLMs oft falsch und schneiden nicht besser ab als ein Zufallsgenerator. Dies deutet darauf hin, dass die Fähigkeit zum abduktiven Schlussfolgern eine komplexe Fähigkeit ist, die über die bloße Interpretation visueller Informationen hinausgeht.
NL-Eye ist ein wichtiger Schritt auf dem Weg zur Entwicklung von VLMs, die über robustere Argumentationsfähigkeiten verfügen. In Zukunft könnten solche Modelle in einer Vielzahl von Anwendungen eingesetzt werden, z. B. in der Entwicklung von Sicherheitsassistenten, die potenziell gefährliche Situationen erkennen und warnen können, oder in der Verifikation von generierten Videos, um Deepfakes zu identifizieren.
Entdecken Sie die Vorteile gegenüber ChatGPT Plus
Sie nutzen bereits ChatGPT Plus? Das ist ein guter Anfang! Aber stellen Sie sich vor, Sie hätten Zugang zu allen führenden KI-Modellen weltweit, könnten mit Ihren eigenen Dokumenten arbeiten und nahtlos im Team kollaborieren.
Die professionelle KI-Plattform für Unternehmen – leistungsstärker, flexibler und sicherer als ChatGPT Plus. Mit über 50 Modellen, DSGVO-konformer Infrastruktur und tiefgreifender Integration in Unternehmensprozesse.
❌ Kein strukturierter Dokumentenvergleich
❌ Keine Bearbeitung im Dokumentkontext
❌ Keine Integration von Unternehmenswissen
✅ Gezielter Dokumentenvergleich mit Custom-Prompts
✅ Kontextbewusste Textbearbeitung im Editor
✅ Wissensbasierte Analyse & Zusammenfassungen
Erstellen Sie leistungsstarke Wissensdatenbanken aus Ihren Unternehmensdokumenten.Mindverse Studio verknüpft diese direkt mit der KI – für präzise, kontextbezogene Antworten auf Basis Ihres spezifischen Know-hows.DSGVO-konform, transparent und jederzeit nachvollziehbar.
❌ Nur ein Modellanbieter (OpenAI)
❌ Keine Modellauswahl pro Use Case
❌ Keine zentrale Modellsteuerung für Teams
✅ Zugriff auf über 50 verschiedene KI-Modelle
✅ Modellauswahl pro Prompt oder Assistent
✅ Zentrale Steuerung auf Organisationsebene
❌ Keine echte Teamkollaboration
❌ Keine Rechte- oder Rollenverteilung
❌ Keine zentrale Steuerung oder Nachvollziehbarkeit
✅ Teamübergreifende Bearbeitung in Echtzeit
✅ Granulare Rechte- und Freigabeverwaltung
✅ Zentrale Steuerung & Transparenz auf Organisationsebene
Nutzen Sie Mindverse Studio als zentrale Plattform für abteilungsübergreifende Zusammenarbeit.Teilen Sie Wissen, erstellen Sie gemeinsame Workflows und integrieren Sie KI nahtlos in Ihre täglichen Prozesse – sicher, skalierbar und effizient.Mit granularen Rechten, transparenter Nachvollziehbarkeit und Echtzeit-Kollaboration.
Sehen Sie Mindverse Studio in Aktion. Buchen Sie eine persönliche 30-minütige Demo.
🎯 Kostenlose Demo buchenLernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen