Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die fortschreitende Entwicklung im Bereich der Künstlichen Intelligenz hat zu bemerkenswerten Verbesserungen bei multimodalen Large Reasoning Models (MLRMs) geführt. Diese Modelle sind in der Lage, komplexe textliche und visuelle Aufgaben zu bewältigen. Dennoch stehen sie oft vor der Herausforderung, einfache Probleme zu "überdenken", was zu unnötig langen Denkprozessen führt, während sie bei anspruchsvolleren Aufgaben zu wenig "explorieren" und somit potenzielle Lösungen übersehen. Ein neues Open-Source-Framework namens ARES (Adaptive Reasoning via Difficulty-Aware Token-Level Entropy Shaping) wurde entwickelt, um dieses Ungleichgewicht zu adressieren und eine adaptive Denkweise in KI-Systemen zu fördern.
Multimodale KI-Modelle, die sowohl Text- als auch Bildinformationen verarbeiten können, sind entscheidend für Fortschritte in vielen Anwendungsbereichen. Ihre Fähigkeit, komplexe Zusammenhänge zu erkennen und Schlussfolgerungen zu ziehen, ist beeindruckend. Jedoch offenbaren aktuelle Architekturen eine Ineffizienz: Sie neigen dazu, einfache Aufgaben mit einem unverhältnismäßig hohen Rechenaufwand zu bearbeiten, was sich in langen und redundanten "Reasoning Traces" (Abfolgen von Denkschritten) äußert. Umgekehrt neigen sie dazu, bei wirklich schwierigen Problemen zu schnell aufzugeben oder nicht genügend alternative Lösungswege zu evaluieren, was zu suboptimalen Ergebnissen führt.
Die Entwicklung von ARES basiert auf zwei wesentlichen empirischen Erkenntnissen, die darauf abzielen, diesen Herausforderungen zu begegnen:
Identifikation kritischer Denkprozesse durch HWE-Tokens: Studien haben gezeigt, dass die Entropie auf Token-Ebene (ein Maß für die Unsicherheit bei der Vorhersage des nächsten Tokens) zwar rauschbehaftet sein kann, jedoch eine gemittelte Entropie über ein gleitendes Fenster – die sogenannten "High Window-Entropy (HWE)-Tokens" – zuverlässig Momente hoher Unsicherheit im Denkprozess des Modells identifiziert. Diese Momente signalisieren entscheidende Entscheidungspunkte, an denen das Modell tiefergehende Exploration oder alternative Überlegungen benötigt.
Dynamische Anpassung des Explorationsaufwands: Es wurde festgestellt, dass eine Reduzierung der HWE-Nutzung für einfache Probleme vorteilhaft ist, da dies unnötige Berechnungen vermeidet. Umgekehrt ist eine Erhöhung der HWE-Nutzung entscheidend für die Lösung schwieriger Probleme, da sie eine intensivere und breitere Exploration ermöglicht, um verborgene Lösungen zu finden.
ARES implementiert einen innovativen zweistufigen Trainingsprozess, um die adaptive Denkfähigkeit von MLRMs zu schulen:
In dieser initialen Phase wird dem Modell ein grundlegendes Verständnis für Aufgabenschwierigkeiten vermittelt. Dies geschieht durch die Kuration von multimodalen und textuellen Daten, bei denen die Länge der Reasoning Traces explizit proportional zur Problemkomplexität ist. Im Gegensatz zu früheren Methoden definiert AdaCS eine Zielsatzlänge (Ltarget(p)) für jedes Pass-Rate-Segment (p). Diese Strategie maximiert die Vielfalt der Antwortlängen über verschiedene Schwierigkeitsgrade hinweg und lehrt das Modell, die wahrgenommene Schwierigkeit mit der Ausführlichkeit seiner Begründung zu korrelieren.
Die zweite Stufe verfeinert die adaptiven Denkfähigkeiten des Modells mittels Reinforcement Learning. AEPO beantwortet dabei zwei fundamentale Fragen:
Wann soll exploriert werden (HWE als Explorationstrigger)? HWE-Tokens dienen hier als Auslöser für Exploration. Wenn die Fensterentropie einen adaptiven Schwellenwert überschreitet, verzweigt das Modell zusätzliche Trajektorien. Dies konzentriert die Rechenressourcen effizient auf semantisch bedeutsame Momente anhaltender Unsicherheit.
Wie viel soll exploriert werden (Hierarchische Belohnung und Dynamisches KL-Design)?
Hierarchisches Belohnungsdesign: Dieses System reguliert die Explorationstiefe adaptiv. Aufgaben werden basierend auf geschätzten Pass-Raten in Schwierigkeitskategorien (einfach, mittel, schwer) eingeteilt. Eine dynamische Lagrange-Multiplikator-Funktion skaliert die Stärke der Entropie-Formung. Für einfache Probleme wird Überdenken bestraft, für mittlere Probleme wird eine ausgewogene Exploration gefördert und für schwierige Probleme wird eine tiefgehende Exploration belohnt.
Dynamisches KL-Design: AEPO verwendet ein token-adaptives Gewicht, das die KL-Divergenz-Beschränkung in kritischen Denksegmenten lockert. Dies ermöglicht dem Modell, in Momenten hoher Unsicherheit flexibler zu explorieren.
Umfangreiche Experimente auf verschiedenen mathematischen, logischen und multimodalen Benchmarks, darunter MathVerse, MathVision, MMMU, AIME24/25 und MATH-500, haben gezeigt, dass ARES eine überlegene Leistung und eine deutlich verbesserte Denk-Effizienz erzielt. Das ARES-7B-Modell übertrifft führende Open-Source-Modelle erheblich (z. B. +19,0 auf MathVision, +58,4 auf AIME25) und schließt die Leistungslücke zu kommerziellen Systemen, während es gleichzeitig die Inferenzkosten signifikant senkt.
Ablationsstudien bestätigen die entscheidende Rolle sowohl des hierarchischen Belohnungsdesigns (Verbesserung der durchschnittlichen Genauigkeit um +1,8 Punkte gegenüber der GRPO-Baseline) als auch des dynamischen KL-Designs (Verbesserung der durchschnittlichen Genauigkeit um +1,3 Punkte). Die synergetische Kombination beider Ansätze führt zur höchsten Gesamtgenauigkeit und den effizientesten Denkpfaden.
ARES bietet einen effektiven Rahmen für die Entwicklung von MLRMs, die ihre Denktiefe und ihren Rechenaufwand an die Schwierigkeit der Aufgabe anpassen können. Diese Fähigkeit zur adaptiven Ressourcennutzung ist entscheidend für die Skalierbarkeit und Nachhaltigkeit zukünftiger KI-Systeme. Indem ARES das Problem des "Überdenkens" und "Unter-Erforschens" adressiert, trägt es dazu bei, leistungsfähigere und effizientere KI-Modelle zu schaffen, die in der Lage sind, komplexe Aufgaben mit optimiertem Ressourceneinsatz zu lösen. Für Unternehmen und Entwickler im B2B-Bereich bedeutet dies das Potenzial für kosteneffizientere und präzisere KI-Anwendungen, insbesondere in Bereichen, die komplexes Reasoning erfordern.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen