KI für Ihr Unternehmen – Jetzt Demo buchen

Neuer Ansatz für visuelles mathematisches Denken durch CodePlot-CoT

Kategorien:
No items found.
Freigegeben:
October 14, 2025

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

1
🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

2
🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

3
⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

4
🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

5
👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Inhaltsverzeichnis

    mindverse studio – Ihre Plattform für digitale Effizienz

    Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.
    Mehr über Mindverse Studio erfahren

    Das Wichtigste in Kürze

    • Herkömmliche Sprach- und Visionsmodelle stoßen bei mathematischen Problemen, die visuelle Unterstützung erfordern, an Grenzen.
    • CodePlot-CoT ist ein neues Framework, das textbasiertes Denken mit der Generierung von ausführbarem Plot-Code verbindet, um "visuelle Gedanken" zu erzeugen.
    • Ein Schlüsselelement ist Math-VR, ein umfangreicher, zweisprachiger Datensatz mit 178.000 mathematischen Problemen, die visuelles Denkvermögen erfordern.
    • Ein spezialisierter Bild-zu-Code-Konverter namens MatplotCode wandelt komplexe mathematische Figuren präzise in Code um.
    • Experimente zeigen eine Leistungssteigerung von bis zu 21% gegenüber Basismodellen, was die Effektivität des code-gesteuerten Denkansatzes bestätigt.
    • Das Projekt stellt seine Datensätze, seinen Code und seine vortrainierten Modelle öffentlich zur Verfügung, um die Forschung im Bereich des multimodalen mathematischen Denkens zu fördern.

    Die jüngsten Fortschritte bei großen Sprachmodellen (LLMs) und Vision-Sprachmodellen (VLMs) haben das mathematische Problemlösungsvermögen erheblich verbessert. Dennoch stoßen diese Modelle weiterhin an ihre Grenzen, wenn Aufgaben visuelle Unterstützung erfordern, wie das Zeichnen von Hilfslinien oder das Plotten von Funktionen zur Lösungsfindung. Die meisten LLMs und VLMs sind auf rein textbasierte Schlussfolgerungsketten beschränkt, während multimodale Modelle, die Text und Bilder miteinander verknüpfen können, oft die erforderliche Präzision und Steuerbarkeit für derartige Aufgaben vermissen lassen.

    CodePlot-CoT: Ein neuer Ansatz für visuelles mathematisches Denken

    Um diese Herausforderung zu adressieren, wurde CodePlot-CoT vorgeschlagen – ein code-gesteuertes Chain-of-Thought (CoT)-Paradigma, das es Modellen ermöglicht, in der Mathematik „mit Bildern zu denken“. Dieser Ansatz nutzt VLMs, um sowohl textbasierte Überlegungen als auch ausführbaren Plot-Code zu generieren. Dieser Code wird anschließend in Bilder umgewandelt, die als „visuelle Gedanken“ dienen und dem Modell für weitere Denkprozesse erneut als Eingabe zugeführt werden.

    Die Komponenten von CodePlot-CoT

    Die Entwicklung von CodePlot-CoT basiert auf mehreren Säulen:

    • Math-VR Datensatz: Als Grundlage dient Math-VR, der erste groß angelegte, zweisprachige Datensatz und Benchmark für mathematische Probleme, die visuelles Denkvermögen erfordern. Er umfasst 178.000 Beispiele.
    • MatplotCode Konverter: Um qualitativ hochwertige Trainingsdaten zu generieren, wurde MatplotCode entwickelt, ein spezialisierter Bild-zu-Code-Konverter. Dieser ist darauf ausgelegt, komplexe mathematische Figuren präzise in ausführbaren Code zu übersetzen.
    • Training des CodePlot-CoT Modells: Mithilfe dieser Daten wird das CodePlot-CoT-Modell trainiert, um mathematische Probleme effektiv zu lösen.

    Math-VR: Ein Benchmark für visuelles mathematisches Denken

    Math-VR ist ein umfassender, zweisprachiger (Englisch und Chinesisch) Datensatz und Benchmark, der speziell dafür konzipiert wurde, die visuellen Denkfähigkeiten von KI-Modellen in der Mathematik zu bewerten und zu fördern. Im Gegensatz zu traditionellen Benchmarks, die sich auf textzentrierte Problemlösungen konzentrieren, zielt Math-VR auf Aufgaben ab, die „Denken mit Bildern“ erfordern, wie das Zeichnen von Hilfslinien oder das Plotten von Funktionen zur Lösungsfindung.

    Struktur und Inhalt des Datensatzes

    Der Math-VR-Datensatz enthält 178.000 Beispiele, die jeweils eine Frage, einen detaillierten Denkprozess und eine endgültige Antwort umfassen. Ein wesentliches Merkmal ist, dass der Denkprozess für jedes Problem mindestens ein Bild enthält. Dies bietet eine reichhaltige Ressource, um Modelle darin zu trainieren, visuelle Informationen in ihre Problemlösungsschritte zu integrieren. Der Datensatz deckt verschiedene mathematische Gebiete ab, darunter Geometrie, Algebra und Analysis.

    Evaluierung und Metriken

    Der Math-VR-Benchmark besteht aus 5.000 zweisprachigen mathematischen Fragen. Um eine deterministische und zuverlässige Bewertung zu gewährleisten, wurden die Fragen sorgfältig ausgewählt. So wurden beispielsweise beweisbasierte Fragen ausgeschlossen, um die Schwierigkeit der Bewertung logischer Gültigkeit zu vermeiden, und die meisten Multiple-Choice-Fragen wurden entfernt, um das Erraten korrekter Antworten zu verhindern. Der Benchmark ist in zwei Untergruppen unterteilt:

    • Text-Untergruppe: 2.000 rein textbasierte Fragen.
    • Multimodale Untergruppe: 3.000 Fragen, die sowohl Text als auch Bilder präsentieren.

    Beide Fragetypen erfordern von den Modellen, im visuellen Bereich zu denken oder ihre Vorstellungskraft zu nutzen. Eine umfassende Bewertungs-Pipeline wurde entwickelt, die zwei Kernmetriken zur Messung der Modellleistung verwendet:

    • Antwortgenauigkeit (AC): Diese Metrik liefert ein binäres Urteil, indem sie streng prüft, ob die endgültige Antwort des Modells perfekt mit der „Ground-Truth“-Antwort übereinstimmt. Jeder Fehler oder jede Auslassung führt zu einem Score von 0.
    • Prozess-Score (PS): Diese Metrik vergibt Teilergebnisse, da der Denkprozess auch dann wertvoll sein kann, wenn die endgültige Antwort falsch ist. Sie bewertet, ob das Modell kritische „Scoring Points“ – wie das Anwenden von Theoremen oder das Ausführen notwendiger Berechnungen – innerhalb seiner Denkprozesse erreicht. Diese detaillierte Bewertung spiegelt die wahren Problemlösungsfähigkeiten eines Modells genauer wider.

    MatplotCode: Präzision in der Bild-zu-Code-Konvertierung

    Ein zentraler Baustein für das Training des CodePlot-CoT-Modells ist MatplotCode, ein hochpräziser Konverter für mathematische Figuren. Da hochwertige Daten, die Bilder mit entsprechendem Plot-Code paaren, selten sind und bestehende allgemeine Modelle für diese spezialisierte Aufgabe unzuverlässig sind, wurde MatplotCode entwickelt. Dieses Tool ist darauf spezialisiert, komplexe mathematische Figuren in hochpräzisen Python-Plot-Code umzuwandeln. In der Evaluierung erreichte MatplotCode eine Erfolgsquote von 100 % bei der Code-Ausführung. Die Bildrekonstruktionsgenauigkeit übertrifft zudem signifikant die von gängigen Modellen wie GPT-03 und Gemini-2.5-Pro. MatplotCode ist somit entscheidend für die groß angelegte Kuratierung der code-gesteuerten Trainingsdaten und legt das Fundament für das erfolgreiche Training des CodePlot-CoT-Modells.

    Experimentelle Ergebnisse und Ausblick

    Die experimentellen Ergebnisse zeigen, dass das CodePlot-CoT-Modell eine Leistungssteigerung von bis zu 21 % gegenüber dem Basismodell auf dem neuen Math-VR-Benchmark erreicht. Dies bestätigt die Wirksamkeit des vorgeschlagenen code-gesteuerten Denkparadigmas. Diese Arbeit eröffnet eine neue Richtung für multimodales mathematisches Denken und stellt der Forschungsgemeinschaft den ersten groß angelegten Datensatz, einen umfassenden Benchmark und einen leistungsstarken Ansatz für derartige Probleme zur Verfügung. Um die zukünftige Forschung zu erleichtern, werden die Datensätze, der Code und die vortrainierten Modelle öffentlich zugänglich gemacht.

    Implikationen für B2B-Anwendungen im KI-Bereich

    Für B2B-Kunden, die im Bereich der KI-Entwicklung und -Anwendung tätig sind, insbesondere in Sektoren, die komplexe mathematische oder visuelle Analysen erfordern (z.B. Ingenieurwesen, Finanzmodellierung, wissenschaftliche Forschung), bietet CodePlot-CoT vielversprechende Perspektiven:

    • Erhöhte Präzision und Kontrolle: Die Fähigkeit, visuelle Gedanken durch Code zu steuern, ermöglicht eine höhere Genauigkeit und Reproduzierbarkeit bei der Problemlösung, was für geschäftskritische Anwendungen unerlässlich ist.
    • Effizientere Entwicklung: Der öffentlich zugängliche Datensatz und die Modelle reduzieren die Einstiegshürden für Unternehmen, die ähnliche multimodale KI-Lösungen entwickeln möchten.
    • Neue Anwendungsfelder: Die verbesserte Fähigkeit, visuelle und mathematische Informationen zu verknüpfen, könnte neue Anwendungen in der Datenvisualisierung, im automatisierten Design oder in der Qualitätskontrolle ermöglichen.
    • Potenzial für personalisierte KI-Assistenten: Denkbar sind KI-Assistenten, die komplexe technische Dokumente nicht nur verstehen, sondern auch die darin enthaltenen Diagramme und Formeln interaktiv analysieren und erklären können.

    Die Forschung hinter CodePlot-CoT unterstreicht die wachsende Bedeutung von multimodalen Ansätzen, die über reine Textverarbeitung hinausgehen. Für Unternehmen, die auf der Suche nach intelligenten Partnern sind, die komplexe Herausforderungen durch innovative KI-Lösungen meistern, bietet dieser Fortschritt wertvolle Einblicke in die Möglichkeiten zukünftiger Systeme.

    Bibliographie

    - Duan, C., Sun, K., Fang, R., Zhang, M., Feng, Y., Luo, Y., Liu, Y., Wang, K., Pei, P., Cai, X., Li, H., Ma, Y., & Liu, X. (2025). *CodePlot-CoT: Mathematical Visual Reasoning by Thinking with Code-Driven Images*. arXiv preprint arXiv:2510.11718. - HKU-MMLab. (n.d.). *Math-VR Benchmark & CodePlot-CoT: Mathematical Visual Reasoning by Thinking with Code-Driven Images*. GitHub. Verfügbar unter: https://github.com/HKU-MMLab/Math-VR-CodePlot-CoT - Hugging Face. (n.d.). *Daily Papers*. Verfügbar unter: https://huggingface.co/papers/date/2025-10-14 - Hugging Face. (n.d.). *Daily Papers*. Verfügbar unter: https://huggingface.co/papers/week/2025-W42 - Papers With Code. (n.d.). *Visual Reasoning*. Verfügbar unter: https://paperswithcode.com/task/visual-reasoning/codeless?page=2&q= - Zhaochen. (n.d.). *zhaochen0110/Awesome_Think_With_Images*. GitHub. Verfügbar unter: https://github.com/zhaochen0110/Awesome_Think_With_Images

    Artikel jetzt als Podcast anhören

    Kunden die uns vertrauen:
    Arise Health logoArise Health logoThe Paak logoThe Paak logoOE logo2020INC logoEphicient logo
    und viele weitere mehr!

    Bereit für den nächsten Schritt?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen