Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Sehr geehrte Leserin, sehr geehrter Leser,
die Entwicklung großer Sprachmodelle (LLMs) hat in den letzten Jahren beeindruckende Fortschritte erzielt, insbesondere im Bereich komplexer Denkaufgaben. Ein wesentlicher Treiber dieser Entwicklung ist der Einsatz von Reinforcement Learning (RL) im Post-Training. Diese Methode ermöglicht es LLMs, sogenannte "Chain-of-Thought" (CoT)-Ausgaben zu generieren, die detaillierte Denkprozesse abbilden und so zu präziseren Lösungen führen. Doch mit der zunehmenden Komplexität und Länge dieser Denkketten stellen sich neue Herausforderungen hinsichtlich der Effizienz und der optimalen Leistung der Modelle.
Die Verlängerung der CoT-Ausgaben durch RL-Training führt unweigerlich zu höheren Rechenkosten sowohl während des Trainings als auch bei der Inferenz. Dies hat die Entwicklung von Methoden zur Kontrolle der Ausgabelänge vorangetrieben. Die Kernfrage, die sich dabei stellt, ist, wie die optimale Ausgabelänge gefunden werden kann, um ein Gleichgewicht zwischen Effizienz und Leistung zu erzielen. Neuere Forschungsergebnisse beleuchten diese Thematik und bieten wichtige Einblicke für die Anwendung und Weiterentwicklung von KI-Systemen im B2B-Bereich.
Eine aktuelle Studie, die Modelle wie Qwen3-1.7B Base und DeepSeek-R1-Distill-Qwen-1.5B vergleicht, zeigt, dass die Beziehung zwischen Ausgabelänge und Leistung qualitativ variieren kann. Für Modelle mit geringeren initialen Denkfähigkeiten, wie Qwen3-1.7B Base, deutet sich ein monoton steigender Trend an: Längere Ausgaben führen tendenziell zu höherer Genauigkeit. Dies legt nahe, dass diese Modelle längere, explorative Ausgaben benötigen, um kohärente, mehrstufige Denkmuster zu erlernen.
Im Gegensatz dazu zeigt DeepSeek-R1-Distill-Qwen-1.5B, das bereits über starke Denkfähigkeiten verfügt, eine nicht-monotone Beziehung. Hier wird eine optimale Leistung bei einer mittleren Ausgabelänge erreicht. Sowohl zu kurze als auch zu lange Ausgaben beeinträchtigen die Leistung dieses Modells. Dies unterstreicht die Notwendigkeit, bei der Implementierung von Längensteuerungsmechanismen die spezifischen Vorkenntnisse und Fähigkeiten des jeweiligen Modells zu berücksichtigen.
Die Analyse der Studie identifiziert zwei primäre Fehlerquellen, die mit suboptimalen Argumentationslängen verbunden sind:
Diese Beobachtungen legen nahe, dass die Kontrolle der Argumentationslänge einen Kompromiss darstellt. Längere Ausgaben bergen das Risiko einer erhöhten Streuung, während kürzere Ausgaben das Risiko bergen, dass die Verteilung von den richtigen Antworten wegbewegt wird.
Verschiedene Ansätze zur Längensteuerung wurden evaluiert, darunter RLOO-LP, ALP und DRPO. Diese Methoden wenden Belohnungsmechanismen an, die längere Antworten bestrafen, oder nutzen gewichtete Ansätze innerhalb von Frameworks wie DisCO. Die Ergebnisse zeigen, dass Längenstrafen die Aneignung von Denkfähigkeiten behindern können, insbesondere bei Modellen, die diese Fähigkeiten erst noch entwickeln müssen. Bei Modellen mit bereits starken Denkfähigkeiten kann eine richtig abgestimmte Längensteuerung die Effizienz verbessern.
Es wurde auch festgestellt, dass bestimmte Normalisierungsstrategien, wie sie in GRPO und DAPO verwendet werden, die Trainingsstabilität beeinflussen können, insbesondere wenn die Varianz der Ausgabelängen hoch ist. Modelle mit einer geringeren Varianz in den Ausgabelängen, wie das distilierte DeepSeek-R1, zeigen eine stabilere Leistung bei diesen Methoden.
Die Erkenntnisse aus dieser Forschung sind für die Entwicklung und Implementierung von KI-Systemen von großer Bedeutung. Sie zeigen, dass eine pauschale Anwendung von Längenstrafen nicht immer vorteilhaft ist und die spezifischen Merkmale des Modells sowie die Art der Denkaufgabe berücksichtigt werden müssen. Eine prädiktive Modellierung der optimalen Argumentationslänge basierend auf Aufgabenkomplexität könnte die Genauigkeit von generierten Antworten verbessern. Einfache lineare Regressionsmodelle, die die Lauflänge und die Größe des Zustandsraums berücksichtigen, können bereits signifikante Verbesserungen erzielen.
Für die Zukunft wird die Entwicklung von Methoden, die automatisch die optimale Längenregime finden, ohne manuelle Hyperparameter-Suche, ein vielversprechendes Forschungsfeld sein. Dies würde die Anwendbarkeit und Effizienz von RL-trainierten LLMs in realen Szenarien erheblich steigern.
Zusammenfassend lässt sich festhalten, dass die Optimierung der Argumentationslänge bei RL-trainierten Sprachmodellen ein komplexes, aber entscheidendes Thema ist. Durch ein differenziertes Verständnis der Modellfähigkeiten und der Auswirkungen von Längensteuerungsmechanismen können wir die Leistung und Effizienz von LLMs weiter verbessern, was für den B2B-Bereich von großem Nutzen sein wird.
Mit freundlichen Grüßen,
Ihr Mindverse Expertenteam für KI-Analysen
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen