Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die fortschreitende Entwicklung im Bereich der Künstlichen Intelligenz (KI) bringt stetig neue Methoden hervor, die darauf abzielen, die Leistungsfähigkeit und Interpretierbarkeit komplexer Modelle zu verbessern. Ein aktueller Fokus liegt auf dem Verständnis und der Optimierung von Vision-Language Models (VLMs), insbesondere im Kontext des visuellen Dokumentenverständnisses (Visually-rich Document Understanding, VrDU). Eine vielversprechende Entwicklung in diesem Feld ist die Methodik namens VERSE: Visual Embedding Reduction and Space Exploration.
VLMs haben in den letzten Jahren beeindruckende Fähigkeiten im multimodalen Kontext gezeigt, indem sie visuelle und textuelle Informationen miteinander verknüpfen, um komplexe Aufgaben zu lösen. Im Bereich des VrDU ist es entscheidend, Dokumente zu interpretieren, indem Layout-, Text- und visuelle Merkmale in einer einheitlichen Repräsentation, einem sogenannten Embedding, zusammengeführt werden. Das Verständnis, wie diese Embeddings organisiert sind, wie sie zueinander in Beziehung stehen und welche latenten Muster dabei entstehen, ist der Schlüssel zur Entschlüsselung der semantischen Struktur eines Modells. Eine Optimierung der räumlichen Anordnung von Embeddings verbessert nicht nur die Mustererkennung und Interpretierbarkeit im latenten Raum, sondern führt auch zu einer besseren Leistung bei nachgelagerten Aufgaben.
Traditionell werden VLMs oft mit großen Mengen an realen, multimodalen Daten trainiert. In Domänen, in denen der Zugang zu realen Daten begrenzt ist, greift man jedoch auf synthetische Daten zurück. Die Qualität dieser synthetischen Daten wird dabei oft aus anthropozentrischer Perspektive beurteilt, also danach, ob sie fotorealistisch oder plausibel erscheinen. VERSE schlägt hier einen Paradigmenwechsel vor: Statt die visuelle Qualität aus menschlicher Sicht zu beurteilen, sollte die Datenqualität durch die internen Repräsentationen des Modells bewertet werden. Dies bedeutet, zu analysieren, ob ein synthetisches Sample innerhalb derselben Verteilung liegt wie reale Samples im visuell-semantischen Einbettungsraum.
VERSE ist eine Methodik zur Analyse, Interpretation und Nutzung der Struktur des visuellen Einbettungsraums von VLMs. Sie verfolgt drei Hauptziele:
Die VERSE-Methodik besteht aus mehreren Bausteinen:
Als Validierungsdatensatz dient hierbei typischerweise eine Sammlung realer, anonymisierter Dokumente, die verschiedene Vorlagen und Formatierungskonventionen aufweisen. Diese Samples werden hinsichtlich intrinsischer Dokumenteigenschaften (z.B. Anordnung von Elementen, Darstellung von Noten) und externer Faktoren (z.B. Falten, Schatten, Anonymisierungsartefakte) gekennzeichnet. Der Validierungsdatensatz liefert F1-Scores, die entsprechenden Embeddings jedes Bildes und die menschlich interpretierbaren Merkmale.
Es werden VLMs verwendet, die auf der Transformer-Architektur basieren und einen visuellen Encoder zur Verarbeitung von Text und Bildern integrieren. Die visuellen Embeddings werden aus dem letzten Hidden State des visuellen Blocks extrahiert. Es ist wichtig, dass der visuelle Backbone während des Fine-Tunings eingefroren bleibt, um konsistente Embedding-Vergleiche zu gewährleisten.
Um die Reaktion der Modelle auf verschiedene visuelle Stimuli zu analysieren, werden verschiedene Versionen eines synthetischen Datensatzes generiert. Diese augmentierten Versionen führen zusätzliche Granularität ein und variieren in der Menge und Qualität der visuellen Informationen. Jede Version kann Daten aus verschiedenen Quellen umfassen, die unterschiedliche visuelle, Layout- und Textmerkmale aufweisen.
Die in VLMs verwendeten visuellen Embeddings können Dimensionen im Bereich von mehreren Tausend aufweisen. Um eine menscheninterpretierbare grafische Darstellung zu erhalten, müssen diese Embeddings reduziert werden. Techniken wie die Hauptkomponentenanalyse (PCA) werden angewendet, um die hochdimensionalen Daten in einen niedrigerdimensionalen Raum zu projizieren. Dies ermöglicht eine visuelle Beurteilung der visuellen Repräsentationsqualität des Modells: gut definierte und trennbare Cluster deuten auf eine stärkere Repräsentationskapazität hin.
Nach der Dimensionsreduktion zeigen Modelle mit ausreichend reichhaltigen visuellen Repräsentationen für die Zielaufgabe klar definierte Clusterregionen innerhalb des Einbettungsraums. Die Analyse dieser Cluster vertieft die Modellinterpretierbarkeit. Durch das Überlagern komplementärer Informationen, wie F1-Scores oder visueller und struktureller Attribute, wird die Erklärbarkeit weiter verbessert.
Die Dimensionsreduktion mittels PCA offenbart unterschiedliche Clustering-Muster. Der Grad der Clusterdefinition variiert je nach Modell. Eine bessere Clusterdefinition impliziert, dass die Modelle Samples basierend auf diskriminierenden Merkmalen unterscheiden können, was als ein reichhaltigeres Verständnis des Problems interpretiert wird. Modelle mit stärker strukturierten Embeddings, die durch höhere Silhouetten-Scores gekennzeichnet sind, zeigen tendenziell eine bessere Leistung bei nachgelagerten Aufgaben.
Obwohl die PCA mit einem gewissen Informationsverlust einhergeht, zeigt das Überlagern visueller Merkmale auf den reduzierten Einbettungsraum (RES) klar unterscheidbare Cluster. Dies deutet darauf hin, dass die Modelle die visuelle Struktur der Daten kohärent abbilden können. Makroskopische Merkmale wie die Anzahl der Spalten, die vertikale Anordnung von Informationsblöcken oder die Tabellenposition haben einen stärkeren Einfluss auf die Clusterbildung als detailliertere Aspekte wie Stempel oder Signaturen.
VERSE ermöglicht eine gezielte Verbesserung der Modelle durch die Identifizierung problematischer Cluster und die Extraktion relevanter Merkmale. Durch das Fine-Tuning der Modelle mit progressiv reichhaltigeren visuellen Versionen des Datensatzes kann die F1-Leistung signifikant gesteigert werden. Insbesondere zeigt sich, dass Modelle von Samples profitieren, die nicht unbedingt fotorealistisch sind, aber relevante Informationen aus Datenaugmentierungstechniken wie Rotation und Zoom extrahieren.
Die Methodik deckt auf, welche externen Faktoren (z.B. Zoomstufe) und intrinsischen Dokumentmerkmale (z.B. Tabellenstruktur, alphanumerische Notensysteme) zu Leistungseinbußen führen. Durch die Erstellung von "Booster-Sets", die gezielt Samples mit diesen problematischen Merkmalen enthalten, kann die Modellleistung in diesen spezifischen Regionen signifikant verbessert werden, ohne die Generalisierungsfähigkeit zu beeinträchtigen.
Die Anwendung von VERSE führt zu messbaren Leistungssteigerungen. On-Premise-Modelle, die mit dieser Methodik optimiert wurden, erreichen oder übertreffen die Leistung führender SaaS-Lösungen wie GPT-4 und Pixtral. Dies ist besonders relevant für Unternehmen, die Wert auf Datenhoheit und -governance legen, da lokale Modelle diese Vorteile ohne Leistungseinbußen bieten.
Die Dimensionsreduktion des Embedding-Raums und seine grafische Darstellung ermöglichen es, die einflussreichsten Dokumenteigenschaften auf die RES-Struktur zu identifizieren. Intrinsische makro-visuelle Merkmale sind hierbei entscheidend, während extrinsische Merkmale, obwohl relevant für die F1-Leistung, die Anordnung der Samples im Embedding-Raum weniger stark beeinflussen.
Die Ergebnisse von VERSE unterstreichen die Bedeutung der visuellen Repräsentationsqualität für VrDU-Aufgaben. Eine effektive visuelle Modellierung ist entscheidend, da eine schlechte Strukturdisambiguierung die nachgeschaltete Textdekodierung beeinträchtigt. Zukünftige Forschungsarbeiten könnten darauf abzielen, den VERSE-Pipeline umzukehren: Nachdem problematische Regionen im reduzierten Einbettungsraum identifiziert wurden, könnten generative Modelle eingesetzt werden, um Bilder direkt aus diesen latenten Repräsentationen zu rekonstruieren. Dies würde die Synthese von Trainingsdaten ermöglichen, die intrinsisch auf den latenten Raum des Modells abgestimmt sind und die für die Leistungsverbesserung relevantesten visuellen Merkmale verkörpern.
Die VERSE-Methodik bietet somit einen fundierten Ansatz zur Analyse, Verbesserung und Erklärung von VLMs im Kontext des visuellen Dokumentenverständnisses und eröffnet neue Wege für die Entwicklung noch leistungsfähigerer und transparenterer KI-Systeme.
Bibliography - de Rodrigo, I., Lopez-Lopez, A. J., & Boal, J. (2026). VERSE: Visual Embedding Reduction and Space Exploration. Clustering-Guided Insights for Training Data Enhancement in Visually-Rich Document Understanding. arXiv preprint arXiv:2601.05125. - Hugging Face. (2026). VERSE: Visual Embedding Reduction and Space Exploration. Clustering-Guided Insights for Training Data Enhancement in Visually-Rich Document Understanding. Retrieved from https://huggingface.co/papers/2601.05125 - Mudgal, P. (2026). Clustering of Temporal and Visual Data: Recent Advancements. Data, 11(1), 7. doi:10.3390/data11010007Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen