Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
In der Ära der Künstlichen Intelligenz, in der Code zunehmend als präzises und ausführbares Medium für Schlussfolgerungen und Aktionen fungiert, konzentriert sich der Fortschritt oft auf sprachzentrierte Aufgaben wie Programmsynthese und Debugging. Der Bereich der visuell-zentrierten Codierung wurde dabei bislang weniger intensiv erforscht. Eine aktuelle Forschungsarbeit stellt dies in den Mittelpunkt und schlägt Scalable Vector Graphics (SVG) als eine kompakte, interpretierbare und ausführbare visuelle Repräsentation vor. Diese Initiative zielt darauf ab, die Fähigkeit von Multimodalen Sprachmodellen (VLMs) zu bewerten und zu verbessern, visuelle Informationen in präzisen, symbolischen Code zu übersetzen.
Das VCode-Projekt, entwickelt von Forschenden der University of Oxford, der University of Science and Technology of China, der Central South University und Microsoft, führt einen neuen Benchmark ein, der von VLMs die Umwandlung natürlicher Bilder in SVG-Code verlangt. Dieser Ansatz ermöglicht eine symbolische und ausführbare visuelle Repräsentation, die für nachgelagerte Schlussfolgerungen von entscheidender Bedeutung ist. Der Benchmark deckt drei verschiedene Domänen ab:
Um die symbolische Wiedergabetreue der generierten SVGs zu beurteilen, wurde ein neuartiges Evaluationsprotokoll namens CodeVQA entwickelt. Dabei beantwortet ein Policy-Modell Fragen zu gerenderten SVGs, wobei korrekte Antworten auf eine getreue symbolische Erhaltung der visuellen Informationen hindeuten.
Die empirischen Ergebnisse des VCode-Benchmarks zeigen, dass selbst führende VLMs Schwierigkeiten haben, präzise und symbolisch getreue SVGs zu generieren. Dies offenbart eine deutliche Lücke zwischen sprachzentrierter und visuell-zentrierter Codierung. Während diese Modelle oft starke sprachliche Fähigkeiten besitzen, mangelt es ihnen an der Fähigkeit, komplexe visuelle Details in eine exakte Code-Repräsentation zu überführen. Insbesondere bei professionellem Wissen und 3D-Schlussfolgerungen zeigen sich deutliche Einschränkungen.
Um diesen Mangel zu beheben, wurde das VCoder-Framework entwickelt. Es handelt sich um ein agentenbasiertes Framework, das VLMs entlang zweier Achsen erweitert:
Die Implementierung von VCoder führte zu einem signifikanten Leistungsanstieg von 12,3 CodeVQA-Punkten gegenüber dem zuvor besten Modell Claude-4-Opus. Menschliche Studien bestätigen, dass sowohl Menschen als auch VLMs bei der Auswertung gerenderter SVGs ähnliche Schwierigkeiten aufweisen, was die Konsistenz der symbolischen visuellen Repräsentation unterstreicht.
Die Wahl von SVG als Zielformat ist strategisch. SVG ist ein XML-basiertes Vektorbildformat für zweidimensionale Grafiken mit Unterstützung für Interaktivität und Animation. Im Gegensatz zu Rastergrafiken, die aus Pixeln bestehen, beschreibt SVG Bilder durch mathematische Gleichungen, die Formen, Linien und Farben definieren. Dies macht SVGs skalierbar ohne Qualitätsverlust und ermöglicht eine präzise Manipulation und Analyse auf symbolischer Ebene. Für KI-Modelle bietet SVG eine strukturierte und interpretierbare Darstellung visueller Inhalte, die über bloße Pixelinformationen hinausgeht und ein tieferes Verständnis der visuellen Komposition ermöglicht.
Die Ergebnisse dieser Forschung haben weitreichende Implikationen für die Entwicklung multimodaler KI-Systeme. Sie zeigen auf, dass die Fähigkeit, visuelle Informationen in präzisen, ausführbaren Code zu übersetzen, eine entscheidende Komponente für fortgeschrittene KI-Anwendungen ist. Die Verbesserung dieser Fähigkeiten könnte zu einer neuen Generation von KI-Agenten führen, die nicht nur Sprache verstehen und generieren, sondern auch komplexe visuelle Aufgaben autonom und präzise ausführen können. Dies betrifft Bereiche wie:
Die Forschung betont zudem die Notwendigkeit, die grundlegenden visuellen Konzepte in VLMs zu stärken. Die Fähigkeit, grundlegende Linien, Winkel und Formen zu verstehen, ist eine Voraussetzung für die Lösung komplexerer geometrischer Probleme, was in der Studie anhand von Modellen wie G-LLaVA verdeutlicht wird, die trotz guter Leistungen bei komplexen mathematischen Problemen Schwierigkeiten mit grundlegenden visuellen Konzepten aufweisen.
Das VCode-Projekt und das VCoder-Framework stellen einen wichtigen Schritt dar, um die Interaktion zwischen Sprache und visuellen Informationen in KI-Modellen zu vertiefen. Die Herausforderungen in der präzisen Generierung symbolischer visueller Repräsentationen bleiben bestehen, doch der aufgezeigte Weg mittels iterativer Revision und der Nutzung spezialisierter visueller Tools bietet vielversprechende Ansätze zur Weiterentwicklung. Die kontinuierliche Forschung in diesem Bereich wird entscheidend sein, um die Lücke zwischen sprachzentrierter und visuell-zentrierter Codierung weiter zu schließen und die Entwicklung robusterer und vielseitigerer multimodaler KI-Systeme voranzutreiben.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen