Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die jüngsten Fortschritte bei großen Sprachmodellen (LLMs) und Vision-Sprachmodellen (VLMs) haben das mathematische Problemlösungsvermögen erheblich verbessert. Dennoch stoßen diese Modelle weiterhin an ihre Grenzen, wenn Aufgaben visuelle Unterstützung erfordern, wie das Zeichnen von Hilfslinien oder das Plotten von Funktionen zur Lösungsfindung. Die meisten LLMs und VLMs sind auf rein textbasierte Schlussfolgerungsketten beschränkt, während multimodale Modelle, die Text und Bilder miteinander verknüpfen können, oft die erforderliche Präzision und Steuerbarkeit für derartige Aufgaben vermissen lassen.
Um diese Herausforderung zu adressieren, wurde CodePlot-CoT vorgeschlagen – ein code-gesteuertes Chain-of-Thought (CoT)-Paradigma, das es Modellen ermöglicht, in der Mathematik „mit Bildern zu denken“. Dieser Ansatz nutzt VLMs, um sowohl textbasierte Überlegungen als auch ausführbaren Plot-Code zu generieren. Dieser Code wird anschließend in Bilder umgewandelt, die als „visuelle Gedanken“ dienen und dem Modell für weitere Denkprozesse erneut als Eingabe zugeführt werden.
Die Entwicklung von CodePlot-CoT basiert auf mehreren Säulen:
Math-VR ist ein umfassender, zweisprachiger (Englisch und Chinesisch) Datensatz und Benchmark, der speziell dafür konzipiert wurde, die visuellen Denkfähigkeiten von KI-Modellen in der Mathematik zu bewerten und zu fördern. Im Gegensatz zu traditionellen Benchmarks, die sich auf textzentrierte Problemlösungen konzentrieren, zielt Math-VR auf Aufgaben ab, die „Denken mit Bildern“ erfordern, wie das Zeichnen von Hilfslinien oder das Plotten von Funktionen zur Lösungsfindung.
Der Math-VR-Datensatz enthält 178.000 Beispiele, die jeweils eine Frage, einen detaillierten Denkprozess und eine endgültige Antwort umfassen. Ein wesentliches Merkmal ist, dass der Denkprozess für jedes Problem mindestens ein Bild enthält. Dies bietet eine reichhaltige Ressource, um Modelle darin zu trainieren, visuelle Informationen in ihre Problemlösungsschritte zu integrieren. Der Datensatz deckt verschiedene mathematische Gebiete ab, darunter Geometrie, Algebra und Analysis.
Der Math-VR-Benchmark besteht aus 5.000 zweisprachigen mathematischen Fragen. Um eine deterministische und zuverlässige Bewertung zu gewährleisten, wurden die Fragen sorgfältig ausgewählt. So wurden beispielsweise beweisbasierte Fragen ausgeschlossen, um die Schwierigkeit der Bewertung logischer Gültigkeit zu vermeiden, und die meisten Multiple-Choice-Fragen wurden entfernt, um das Erraten korrekter Antworten zu verhindern. Der Benchmark ist in zwei Untergruppen unterteilt:
Beide Fragetypen erfordern von den Modellen, im visuellen Bereich zu denken oder ihre Vorstellungskraft zu nutzen. Eine umfassende Bewertungs-Pipeline wurde entwickelt, die zwei Kernmetriken zur Messung der Modellleistung verwendet:
Ein zentraler Baustein für das Training des CodePlot-CoT-Modells ist MatplotCode, ein hochpräziser Konverter für mathematische Figuren. Da hochwertige Daten, die Bilder mit entsprechendem Plot-Code paaren, selten sind und bestehende allgemeine Modelle für diese spezialisierte Aufgabe unzuverlässig sind, wurde MatplotCode entwickelt. Dieses Tool ist darauf spezialisiert, komplexe mathematische Figuren in hochpräzisen Python-Plot-Code umzuwandeln. In der Evaluierung erreichte MatplotCode eine Erfolgsquote von 100 % bei der Code-Ausführung. Die Bildrekonstruktionsgenauigkeit übertrifft zudem signifikant die von gängigen Modellen wie GPT-03 und Gemini-2.5-Pro. MatplotCode ist somit entscheidend für die groß angelegte Kuratierung der code-gesteuerten Trainingsdaten und legt das Fundament für das erfolgreiche Training des CodePlot-CoT-Modells.
Die experimentellen Ergebnisse zeigen, dass das CodePlot-CoT-Modell eine Leistungssteigerung von bis zu 21 % gegenüber dem Basismodell auf dem neuen Math-VR-Benchmark erreicht. Dies bestätigt die Wirksamkeit des vorgeschlagenen code-gesteuerten Denkparadigmas. Diese Arbeit eröffnet eine neue Richtung für multimodales mathematisches Denken und stellt der Forschungsgemeinschaft den ersten groß angelegten Datensatz, einen umfassenden Benchmark und einen leistungsstarken Ansatz für derartige Probleme zur Verfügung. Um die zukünftige Forschung zu erleichtern, werden die Datensätze, der Code und die vortrainierten Modelle öffentlich zugänglich gemacht.
Für B2B-Kunden, die im Bereich der KI-Entwicklung und -Anwendung tätig sind, insbesondere in Sektoren, die komplexe mathematische oder visuelle Analysen erfordern (z.B. Ingenieurwesen, Finanzmodellierung, wissenschaftliche Forschung), bietet CodePlot-CoT vielversprechende Perspektiven:
Die Forschung hinter CodePlot-CoT unterstreicht die wachsende Bedeutung von multimodalen Ansätzen, die über reine Textverarbeitung hinausgehen. Für Unternehmen, die auf der Suche nach intelligenten Partnern sind, die komplexe Herausforderungen durch innovative KI-Lösungen meistern, bietet dieser Fortschritt wertvolle Einblicke in die Möglichkeiten zukünftiger Systeme.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen