VCode und VCoder: Neue Ansätze für multimodales Coding mit SVG als symbolischer visueller Repräsentation

Kategorien:

No items found.

Freigegeben:

November 9, 2025

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

VCode ist ein neuer multimodaler Coding-Benchmark, der SVG als symbolische visuelle Darstellung nutzt, um die Lücke zwischen sprachzentriertem und visuell-zentriertem Coding zu schließen.
Traditionelle Bildrepräsentationen mittels RGB-Pixeln sind für KI-Agenten in der "Agentic Era" oft unzureichend, da sie symbolische Bedeutung und Interpretierbarkeit vermissen lassen.
SVG-Code bietet eine kompakte, interpretierbare und ausführbare visuelle Repräsentation, die für das logische Denken von KI-Agenten vorteilhaft ist.
Der VCode-Benchmark umfasst drei Domänen: allgemeiner Menschenverstand (MM-Vet), professionelle Disziplinen (MMMU) und visuell-zentrierte Wahrnehmung (CV-Bench).
CodeVQA, ein neues Evaluierungsprotokoll, bewertet die symbolische Wiedergabetreue von generiertem SVG-Code durch Beantwortung von Fragen über gerenderte SVGs.
Aktuelle Vision-Language Models (VLMs) zeigen Schwierigkeiten bei der Erzeugung treuer SVGs, was auf einen signifikanten Verbesserungsbedarf im visuell-zentrierten Coding hinweist.
VCoder, ein agentisches Framework, verbessert VLMs durch "Thinking with Revision" und "Acting with Visual Tools", wodurch es eine deutliche Leistungssteigerung erzielt.
Menschliche Studien zeigen, dass sowohl Menschen als auch VLMs bei gerenderten SVGs schlechter abschneiden, was die Bedeutung symbolischer visueller Repräsentationen unterstreicht.
Die Forschung unterstreicht die Notwendigkeit robuster agentischer Foundation Models und effizienter Trainingsmethoden für komplexe, multimodale Aufgaben.
Die Open-Source-Verfügbarkeit des VCode-Benchmarks und des VCoder-Frameworks soll die Forschung in diesem Bereich fördern.

Die fortschreitende Entwicklung künstlicher Intelligenz (KI) führt zu immer komplexeren Systemen, die in der Lage sind, menschenähnliche Aufgaben zu bewältigen. Insbesondere im Bereich der multimodalen KI, die Text, Bilder und andere Daten integriert, zeichnen sich neue Herausforderungen und Lösungen ab. Ein aktueller Fokus liegt auf der Entwicklung von KI-Agenten, die nicht nur textuelle Informationen verarbeiten, sondern auch visuelle Daten symbolisch interpretieren und manipulieren können. In diesem Kontext wurde eine neue Forschungsarbeit mit dem Titel "VCode: A Multimodal Coding Benchmark with SVG as Symbolic Visual Representation" vorgestellt, die einen innovativen Ansatz zur Bewertung und Verbesserung der Fähigkeiten multimodaler KI-Agenten im visuell-zentrierten Coding beleuchtet.

SVG als symbolische visuelle Repräsentation: Ein Paradigmenwechsel

Seit Jahrzehnten sind RGB-Pixel das Standardmedium zur Darstellung von Bildern in der Computerwelt. Diese pixelbasierten Repräsentationen sind zwar für die menschliche Wahrnehmung optimiert, stellen jedoch für KI-Agenten, die logische Schlussfolgerungen und Aktionen aus visuellen Eingaben ableiten sollen, oft eine Herausforderung dar. Die sogenannte "Agentic Era" erfordert präzisere und ausführbarere Medien für das Denken und Handeln von KI-Systemen. Hier setzt der Ansatz von VCode an, indem er Scalable Vector Graphics (SVG) als eine symbolische visuelle Repräsentation vorschlägt.

Warum SVG?

Die Wahl von SVG basiert auf mehreren entscheidenden Vorteilen:

Kompaktheit: SVG-Dateien können komplexe Grafiken effizient beschreiben, oft mit weniger Daten als Pixelgrafiken.
Interpretierbarkeit: SVG ist ein XML-basiertes Format, dessen Code von Menschen und Maschinen gleichermaßen gelesen und verstanden werden kann. Jedes Element im SVG-Code (z.B. Kreis, Rechteck, Pfad) hat eine klare semantische Bedeutung.
Ausführbarkeit: SVG-Code ist direkt ausführbar und kann von jedem Browser oder einer geeigneten Software gerendert werden. Dies ermöglicht eine präzise Kontrolle über die visuelle Ausgabe und erleichtert die Verifizierung der generierten Repräsentation.
Symbolische Bedeutung: Im Gegensatz zu Pixeldaten, die rohe Farbinformationen enthalten, repräsentiert SVG geometrische Formen und deren Eigenschaften symbolisch. Dies ist für KI-Agenten von Vorteil, da sie direkt mit diesen Symbolen und deren Beziehungen arbeiten können, anstatt komplexe Muster aus Pixeldaten extrahieren zu müssen.

VCode: Ein neuer Benchmark für multimodales Coding

Der VCode-Benchmark wurde entwickelt, um multimodales Verständnis als Codegenerierung neu zu definieren. Die Kernaufgabe für ein Modell besteht darin, aus einem gegebenen Bild SVG-Code zu generieren, der die symbolische Bedeutung des Bildes bewahrt und für nachfolgende logische Schlussfolgerungen genutzt werden kann. Dies erfordert nicht nur eine präzise visuelle Wahrnehmung, sondern auch ein tiefes Verständnis der semantischen Struktur von Bildern und deren Übersetzung in eine ausführbare Codeform.

Umfassende Domänenabdeckung

VCode deckt drei unterschiedliche Domänen ab, um die Fähigkeiten von Modellen in verschiedenen Szenarien zu testen:

Allgemeiner Menschenverstand (MM-Vet): Diese Domäne bewertet das Verständnis von alltäglichen visuellen Konzepten und deren symbolischer Darstellung.
Professionelle Disziplinen (MMMU): Hier werden spezialisierte Kenntnisse und das Verständnis von visuellen Repräsentationen in spezifischen Fachgebieten abgefragt, beispielsweise in technischen Zeichnungen oder Diagrammen.
Visuell-zentrierte Wahrnehmung (CV-Bench): Diese Domäne konzentriert sich auf die präzise Wahrnehmung und Rekonstruktion visueller Details, die eine genaue SVG-Generierung erfordern.

CodeVQA: Ein neuartiges Evaluierungsprotokoll

Um die symbolische Wiedergabetreue des generierten SVG-Codes zu bewerten, wurde CodeVQA (Code Visual Question Answering) entwickelt. Bei diesem Protokoll beantwortet ein Policy-Modell Fragen, die sich auf die gerenderten SVGs beziehen. Die Korrektheit der Antworten dient als Indikator dafür, wie gut der generierte SVG-Code die ursprüngliche symbolische Bedeutung des Bildes erfasst hat. Dies ist ein wichtiger Schritt, da es die Bewertung von visueller Repräsentation über bloße Ähnlichkeit hinaus auf die Ebene des Verständnisses und der logischen Korrektheit hebt.

Herausforderungen und aktuelle Leistung

Die ersten empirischen Studien mit VCode zeigen, dass selbst führende Vision-Language Models (VLMs) Schwierigkeiten haben, treue SVGs zu generieren. Dies deckt eine bestehende Lücke zwischen sprachzentriertem und visuell-zentriertem Coding auf. Während viele VLMs in sprachbasierten Aufgaben wie Programmsynthese und Debugging Fortschritte erzielt haben, bleibt die visuell-zentrierte Codierung ein weitgehend unerforschtes Feld mit erheblichem Verbesserungsbedarf. Die Modelle sind zwar in der Lage, Bilder zu interpretieren, aber die präzise und symbolisch korrekte Umwandlung in ausführbaren Code ist eine andere Herausforderung.

Insbesondere in Domänen, die professionelles Wissen und dreidimensionales Denken erfordern, zeigen die Modelle noch deutliche Limitationen. Dies liegt daran, dass SVG, obwohl es 2D-Grafiken darstellt, oft die Grundlage für komplexere visuelle Konzepte bildet, die ein tieferes räumliches und logisches Verständnis erfordern.

VCoder: Ein agentisches Framework zur Überwindung der Lücke

Zur Adressierung dieser Herausforderungen wurde VCoder eingeführt, ein agentisches Framework, das VLMs entlang zweier Achsen erweitert:

Thinking with Revision (Denken mit Revision): VCoder analysiert iterativ Diskrepanzen zwischen der gewünschten visuellen Ausgabe und dem generierten SVG-Code. Es verfeinert den Code schrittweise, ähnlich wie ein Mensch einen Entwurf überarbeitet, um die Genauigkeit zu verbessern.
Acting with Visual Tools (Handeln mit visuellen Werkzeugen): Das Framework integriert Detektoren und Parser, die strukturierte visuelle Hinweise wie Objekte, Formen und Text über die intrinsischen Fähigkeiten des Modells hinaus liefern. Diese externen Werkzeuge ergänzen die VLM-Fähigkeiten und ermöglichen eine präzisere und fundiertere Codegenerierung.

Die Ergebnisse zeigen, dass VCoder eine signifikante Gesamtverbesserung von 12,3 Punkten gegenüber dem leistungsfähigsten Modell, Claude-4-Opus, erzielt. Dies demonstriert das Potenzial agentischer Frameworks, die Lücke im visuell-zentrierten Coding zu schließen. Menschliche Studien bestätigen zudem, dass sowohl Menschen als auch VLMs bei der Bewertung gerenderter SVGs Schwierigkeiten haben, was die Relevanz und den vielversprechenden Charakter symbolischer visueller Repräsentationen weiter unterstreicht.

Ausblick und Implikationen für die KI-Entwicklung

Die Arbeit an VCode und VCoder hat weitreichende Implikationen für die zukünftige Entwicklung von KI-Agenten. Sie betont die Notwendigkeit, über pixelbasierte Bildrepräsentationen hinauszugehen und symbolische, interpretierbare Formate zu nutzen, die das logische Denken von KI-Agenten besser unterstützen. Dies ist besonders relevant in einer Zeit, in der KI-Agenten zunehmend autonom komplexe Aufgaben in der realen Welt lösen sollen, sei es in der Datenwissenschaft, im Ingenieurwesen oder in anderen professionellen Domänen.

Die Open-Source-Verfügbarkeit des VCode-Benchmarks und des VCoder-Frameworks auf GitHub ist ein wichtiger Schritt, um die Forschung in diesem Bereich zu beschleunigen und der gesamten KI-Gemeinschaft zugänglich zu machen. Es wird erwartet, dass diese Initiativen zu einer neuen Generation von multimodalen AI-Agenten führen werden, die nicht nur sehen und verstehen, sondern auch präzise und symbolisch fundierte visuelle Repräsentationen erstellen können.

Die Zukunft der KI-Agenten liegt möglicherweise in ihrer Fähigkeit, die Welt nicht nur wahrzunehmen, sondern auch zu interpretieren, zu abstrahieren und in ausführbaren Code zu übersetzen. Dies könnte den Weg für intelligentere, zuverlässigere und vielseitigere KI-Systeme ebnen, die in der Lage sind, komplexe Probleme auf eine Weise zu lösen, die der menschlichen Kognition näherkommt.

Bedeutung für B2B-Anwendungen

Für Unternehmen im B2B-Bereich eröffnen sich durch solche Fortschritte neue Möglichkeiten. KI-Agenten, die visuelle Informationen symbolisch verarbeiten können, könnten beispielsweise in folgenden Bereichen eingesetzt werden:

Automatisierte Design- und Engineering-Prozesse: Generierung von technischen Zeichnungen oder Produktentwürfen direkt aus konzeptionellen Beschreibungen.
Verbesserte Datenanalyse und -visualisierung: Automatische Erstellung von Infografiken oder Dashboards, die komplexe Daten klar und interpretierbar darstellen.
Qualitätskontrolle und Fehlererkennung: Symbolische Analyse von Bildern zur Identifizierung von Abweichungen oder Mängeln in Produktionsprozessen.
Interaktive Benutzeroberflächen: Entwicklung von KI-Systemen, die Benutzeroberflächen dynamisch anpassen und generieren können, basierend auf Benutzerinteraktionen und Kontext.

Die Fähigkeit, visuelle Informationen nicht nur als Pixel, sondern als strukturierte, symbolische Entitäten zu verstehen und zu manipulieren, ist ein entscheidender Schritt auf dem Weg zu wirklich intelligenten und autonomen Systemen. VCode und VCoder sind hierbei wichtige Meilensteine, die die Grenzen des Möglichen in der multimodalen KI neu definieren.

Bibliography - Cao, R., Lei, F., Wu, H., Chen, J., Fu, Y., Gao, H., ... & Yu, T. (2024). Spider2-V: How Far Are Multimodal Agents From Automating Data Science and Engineering Workflows?. arXiv preprint arXiv:2407.10956. - Lin, K. Q., Zhang, Z., Chen, X., Li, X., Wu, H., Wei, J., ... & Li, Y. (2025). VCode: a Multimodal Coding Benchmark with SVG as Symbolic Visual Representation. arXiv preprint arXiv:2511.02778. - Hugging Face Trending Papers: https://huggingface.co/papers/