Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Entwicklung von großen Bild-Sprach-Modellen (Large Vision-and-Language Models, LVLMs) stellt einen entscheidenden Fortschritt im Bereich der künstlichen Intelligenz dar. Diese Modelle sind in der Lage, sowohl visuelle als auch sprachliche Informationen zu verarbeiten und zu interpretieren, was sie für eine Vielzahl von Anwendungen relevant macht. Traditionell werden LVLMs nach ihrer Vorab-Schulung mit zwei Hauptparadigmen weiter optimiert: dem Supervised Fine-Tuning (SFT) und dem Reinforcement Learning with Verifiable Rewards (RLVR). Eine neue Forschung, die als ViSurf (Visual Supervised-and-Reinforcement Fine-Tuning) bezeichnet wird, schlägt nun einen integrierten Ansatz vor, der die Stärken beider Methoden in einer einzigen Trainingsphase vereint und dabei die bisherigen Ansätze übertrifft.
Das Supervised Fine-Tuning (SFT) nutzt externe Anleitungen, um neues Wissen in die Modelle einzuspeisen. Es ist effektiv, um Modelle auf spezifische Aufgaben vorzubereiten, zeigt jedoch oft eine suboptimale Leistung, wenn es um komplexere Aufgaben oder die Übertragung auf neue Szenarien geht. Das Reinforcement Learning with Verifiable Rewards (RLVR) hingegen verwendet interne Verstärkung, um die Schlussfolgerungsfähigkeiten und die Gesamtleistung zu verbessern. Während RLVR die Argumentationsfähigkeiten stärkt, hat es Schwierigkeiten mit Aufgaben, die über die interne Wissensbasis des Modells hinausgehen.
Die Analyse dieser Methoden offenbart, dass SFT häufig zu suboptimalen Ergebnissen führt, während RLVR bei Aufgaben an seine Grenzen stößt, die das interne Wissen des Modells überschreiten. Diese Einschränkungen führten zur Entwicklung von ViSurf, einem Paradigma, das darauf abzielt, die Vorteile beider Ansätze zu nutzen und deren Schwächen zu minimieren.
ViSurf ist ein einheitliches Post-Training-Paradigma, das Supervised Fine-Tuning und Reinforcement Learning mit überprüfbaren Belohnungen in einer einzigen Stufe zusammenführt. Der Kern von ViSurf liegt in der Injektion von Ground-Truth-Labels (wahren Labels) in die RLVR-Rollouts. Dies ermöglicht eine gleichzeitige externe Supervision und interne Verstärkung. Durch diese Integration können die Modelle sowohl aus expliziten Anweisungen lernen als auch ihre internen Argumentationsfähigkeiten durch Belohnungen verbessern.
Darüber hinaus wurden drei neuartige Belohnungssteuerungsstrategien eingeführt, um den Trainingsprozess zu stabilisieren und zu optimieren. Diese Strategien tragen dazu bei, die oft unstabilen Aspekte des Reinforcement Learning zu kontrollieren und gleichzeitig eine effektive Wissensaufnahme aus den überwachten Daten zu gewährleisten.
Umfassende Experimente auf verschiedenen Benchmarks demonstrieren die Wirksamkeit von ViSurf. Die Methode übertrifft sowohl individuelle SFT- und RLVR-Ansätze als auch zweistufige SFT→RLVR-Pipelines. Dies deutet darauf hin, dass die gleichzeitige Anwendung beider Trainingsparadigmen synergistische Vorteile bietet, die die isolierten oder sequenziellen Ansätze nicht erreichen können.
Ein wesentlicher Bestandteil der Leistungsverbesserung durch ViSurf ist die Integration der "Chain-of-Thought"-Begründung (CoT). CoT ermöglicht es den LVLMs, ihre Denkprozesse Schritt für Schritt zu artikulieren, was zu einer effizienteren Exploration und besseren Entscheidungsfindung führt. Die Forschung zeigt, dass Modelle ohne CoT-Begründung eine deutlich geringere Leistung aufweisen, insbesondere bei komplexen arithmetischen Aufgaben. Dies unterstreicht die Bedeutung der Fähigkeit des Modells, Zwischenschritte in seiner Argumentation zu generieren, um optimale Entscheidungen zu treffen.
Die Skalierung des CoT-Einflusses durch einen Faktor λ ist dabei entscheidend. Ein moderater Wert für λ (empirisch zwischen 0,2 und 0,5) führt zu den besten Ergebnissen. Ist λ zu groß, wird die Aktionswahrscheinlichkeit zu stark von den CoT-Token beeinflusst. Ist λ zu klein, wird der Effekt der CoT-Begründung im RL-Training reduziert.
Die Fähigkeit von ViSurf, die Entscheidungsfindung von LVLMs zu verbessern, erstreckt sich über verschiedene Domänen. Dies umfasst arithmetische Aufgaben, die eine präzise visuelle Erkennung und Sprachverarbeitung erfordern, sowie Aufgaben, die ein visuell-semantisches Verständnis in interaktiven Umgebungen wie ALFWorld voraussetzen.
Ein 7B-Modell, das mit ViSurf trainiert wurde, konnte in den Experimenten sogar etablierte kommerzielle Modelle wie GPT-4V und Gemini in den meisten Aufgaben übertreffen. Dies verdeutlicht das Potenzial von ViSurf, leistungsstarke und effiziente LVLMs zu entwickeln.
Zukünftige Forschungsrichtungen könnten die weitere Erforschung verschiedener Prompting-Techniken für die CoT-Begründung umfassen. Des Weiteren ist zu beachten, dass die Leistungssteigerung der Methode durch die Größe des Aktionsraums und die Schwierigkeit der Aufgabe begrenzt sein kann. Multitask-Umgebungen mit größeren Aktionsräumen, wie ALFWorld, zeigten im Vergleich zu einfacheren Aufgaben geringere Leistungssteigerungen.
ViSurf stellt einen bedeutenden Schritt in der Entwicklung von LVLMs dar, indem es eine effiziente und effektive Methode zur Verbesserung ihrer Entscheidungsfähigkeiten bietet. Durch die synergetische Kombination von überwachtem und verstärkendem Lernen, verstärkt durch die "Chain-of-Thought"-Begründung, eröffnen sich neue Möglichkeiten für intelligentere und leistungsfähigere KI-Systeme.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen