Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die künstliche Intelligenz hat in den letzten Jahren beeindruckende Fortschritte in der Generierung und Bearbeitung von Bildern erzielt. Während Modelle heute in der Lage sind, ästhetisch ansprechende und realistische natürliche Bilder zu erzeugen, offenbart sich eine Herausforderung im Umgang mit strukturierten visuellen Darstellungen. Hierzu zählen Diagramme, mathematische Figuren, Tabellen und Graphen. Diese Art von Visualisierungen erfordert nicht nur eine präzise Kompositionsplanung und Textwiedergabe, sondern auch ein tiefgreifendes multimodales Denken, um die faktische Genauigkeit zu gewährleisten. Ein aktuelles Forschungsprojekt widmet sich dieser Problematik mit einem umfassenden und systematischen Ansatz.
Im Gegensatz zu freien, natürlichen Bildern, bei denen ästhetische Kohärenz im Vordergrund steht, müssen strukturierte Visualisierungen exakte Informationen vermitteln. Eine fehlerhafte Darstellung in einem Diagramm oder einer Tabelle kann zu falschen Schlussfolgerungen führen. Aktuelle Generierungsmodelle stoßen hier an ihre Grenzen, da sie oft Schwierigkeiten haben, die logischen Beziehungen und textuellen Inhalte innerhalb dieser komplexen Strukturen korrekt zu interpretieren und wiederzugeben. Dies betrifft insbesondere:
Das vorgestellte Forschungsprojekt adressiert diese Herausforderungen durch eine dreigliedrige Strategie: Datenkonstruktion, Modelltraining und die Entwicklung eines Evaluierungsbenchmarks. Ziel ist es, ein vereinheitlichtes multimodales Fundament für strukturierte Visualisierungen zu schaffen.
Ein zentraler Bestandteil des Projekts ist die Schaffung eines umfangreichen Datensatzes. Dieser umfasst 1,3 Millionen hochwertige strukturierte Bildpaare. Diese Daten wurden nicht willkürlich gesammelt, sondern aus ausführbaren Zeichenprogrammen abgeleitet. Dieser Ansatz gewährleistet eine inhärente logische und faktische Korrektheit der Ausgangsdaten. Zusätzlich wurden diese Bildpaare mit sogenannten "Chain-of-Thought"-Begründungsannotationen angereichert. Diese Annotationen ermöglichen es dem Modell, nicht nur das Ergebnis, sondern auch den logischen Weg zur Erstellung oder Bearbeitung einer strukturierten Visualisierung zu lernen. Dies ist entscheidend, um die zugrunde liegenden Fakten und Beziehungen zu verstehen.
Aufbauend auf diesem Datensatz wurde ein vereinheitlichtes Modell trainiert. Dieses Modell integriert ein Visual Language Model (VLM) mit dem FLUX.1 Kontext über einen leichtgewichtigen Konnektor. Diese Integration zielt darauf ab, das multimodale Verständnis zu verbessern, indem sowohl visuelle als auch textuelle Informationen kohärent verarbeitet werden. Das Training erfolgte in einem dreistufigen Lehrplan, der folgende Aspekte berücksichtigt:
Zusätzlich wird während der Inferenzzeit ein externer "Reasoner" eingesetzt, um die Leistung weiter zu steigern und die faktische Genauigkeit zu überprüfen.
Zur objektiven Bewertung der Fähigkeiten von Modellen in diesem Bereich wurde "StructBench" eingeführt. Hierbei handelt es sich um einen neuartigen Benchmark für die Generierung und Bearbeitung von strukturierten Visualisierungen, der über 1.700 anspruchsvolle Instanzen umfasst. Um die feinkörnige faktische Genauigkeit zu beurteilen, wurde eine begleitende Evaluierungsmetrik namens "StructScore" entwickelt. Diese Metrik verwendet ein Multi-Round Q&A-Protokoll, bei dem das Modell Fragen zu den generierten oder bearbeiteten Bildern beantworten muss. Dies ermöglicht eine detaillierte Überprüfung der faktischen Korrektheit auf verschiedenen Ebenen.
Die Evaluierung von 15 verschiedenen Modellen, darunter auch führende Closed-Source-Systeme, ergab, dass diese bei strukturierten Visualisierungen noch weit von einer zufriedenstellenden Leistung entfernt sind. Das im Rahmen des Projekts entwickelte Modell zeigte jedoch eine starke Bearbeitungsleistung. Die Integration von Inferenz-Zeit-Begründungen führte zu konsistenten Leistungssteigerungen über diverse Architekturen hinweg. Die Veröffentlichung des Datensatzes, des Modells und des Benchmarks soll die Forschung in diesem spezialisierten Bereich vorantreiben und die Entwicklung von vereinheitlichten multimodalen Grundlagen für strukturierte Visualisierungen fördern.
Für Unternehmen im B2B-Bereich, die auf präzise und faktisch korrekte visuelle Inhalte angewiesen sind – beispielsweise in der Datenanalyse, technischen Dokumentation oder Finanzberichterstattung – sind diese Entwicklungen von großer Relevanz. Die Fähigkeit, KI-generierte oder -bearbeitete strukturierte Visualisierungen auf ihre Faktizität hin zu überprüfen und zu gewährleisten, ist entscheidend für die Vertrauenswürdigkeit und den praktischen Nutzen von KI-Systemen.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen