Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Multimodale Große Sprachmodelle (MLLMs) haben in den letzten Jahren beeindruckende Fortschritte in der Verarbeitung und Interpretation von Bildern gezeigt. Der Fokus lag jedoch meist auf natürlichen Bildern, also Fotografien realer Szenen. Wie effektiv sind diese Modelle im Umgang mit sogenannten Kompositbildern (CIs)? CIs sind synthetisch erzeugte Bilder, die aus verschiedenen visuellen Elementen wie Diagrammen, Texten, Screenshots oder Symbolen zusammengesetzt sind. Sie finden sich häufig in Präsentationen, Dokumenten und Benutzeroberflächen, spielen also eine wichtige Rolle in unserer digitalen Welt.
Studien zeigen, dass aktuelle MLLMs Schwierigkeiten haben, CIs adäquat zu interpretieren. Die Herausforderung liegt darin, die einzelnen visuellen Komponenten zu erkennen, ihre Beziehungen zueinander zu verstehen und daraus Schlussfolgerungen zu ziehen. Bestehende Trainingsdaten für CIs konzentrieren sich meist auf Frage-Antwort-Aufgaben in Datensätzen wie ChartQA und ScienceQA. Hochwertige Bildbeschreibungsdatensätze, die für eine robuste Ausrichtung von Bild und Sprache unerlässlich sind, existieren bisher primär für natürliche Bilder.
Um diese Lücke zu schließen, wurde CompCap entwickelt – ein Framework zur Generierung von CIs mit detaillierten und präzisen Bildbeschreibungen. CompCap nutzt Große Sprachmodelle (LLMs) und Automatisierungstools, um synthetische Kompositbilder zu erstellen und gleichzeitig passende Captions zu generieren. Mit CompCap wurde der Datensatz CompCap-118K erstellt, der 118.000 Bild-Caption-Paare aus sechs verschiedenen CI-Kategorien enthält.
Die Wirksamkeit von CompCap-118K wurde durch überwachtes Finetuning von drei MLLMs unterschiedlicher Größe evaluiert: xGen-MM-inst.-4B sowie LLaVA-NeXT-Vicuna-7B und -13B. Die Ergebnisse zeigen, dass das Training mit CompCap-118K das Verständnis der MLLMs für CIs deutlich verbessert. Im Durchschnitt wurden Leistungssteigerungen von 1,7%, 2,0% und 2,9% über elf verschiedene Benchmarks hinweg erzielt.
Die Entwicklung von CompCap und CompCap-118K ist ein wichtiger Schritt, um die Fähigkeiten von MLLMs im Umgang mit komplexen visuellen Informationen zu erweitern. Durch die Bereitstellung hochwertiger Trainingsdaten für Kompositbilder können MLLMs lernen, die in CIs enthaltenen Informationen zu extrahieren, Beziehungen zwischen den Elementen zu erkennen und komplexere Schlussfolgerungen zu ziehen. Dies eröffnet neue Möglichkeiten für den Einsatz von MLLMs in Bereichen wie Dokumentenanalyse, Präsentationenverständnis und der Interaktion mit Benutzeroberflächen.
Die Forschung an MLLMs und deren Fähigkeit, verschiedene Bildtypen zu verarbeiten, ist weiterhin im Gange. Zukünftige Arbeiten könnten sich auf die Erweiterung von CompCap auf weitere CI-Kategorien, die Verbesserung der Caption-Qualität und die Entwicklung neuer Trainingsmethoden konzentrieren. Das Ziel ist es, MLLMs zu robusten und vielseitigen Werkzeugen zu machen, die in der Lage sind, die komplexe visuelle Welt um uns herum zu verstehen und zu interpretieren.
Bibliographie: https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models https://arxiv.org/abs/2311.12793 https://paperreading.club/page?id=270877 https://aclanthology.org/2024.acl-long.606.pdf https://arxiv.org/pdf/2306.13549 https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/02629-supp.pdf https://proceedings.neurips.cc/paper_files/paper/2023/file/43a69d143273bd8215578bde887bb552-Paper-Conference.pdf https://www.researchgate.net/publication/386047972_ShareGPT4V_Improving_Large_Multi-modal_Models_with_Better_Captions?_tp=eyJjb250ZXh0Ijp7InBhZ2UiOiJzY2llbnRpZmljQ29udHJpYnV0aW9ucyIsInByZXZpb3VzUGFnZSI6bnVsbH19 https://openreview.net/forum?id=J88EKENxyF https://proceedings.mlr.press/v235/li24s.htmlLernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen