Tencent präsentiert DRIVE-RL ein neues Modell zur Optimierung der Codegenerierung durch Reinforcement Learning

Kategorien:

No items found.

Freigegeben:

November 12, 2025

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Tencent hat DRIVE-RL veröffentlicht, ein neues Modell für die kompetitive Codegenerierung, das auf einem zweistufigen Reinforcement-Learning-Ansatz basiert.
Das Modell nutzt eine neuartige Datenkuratierung und Entropieerweiterung, um signifikante Leistungssteigerungen zu erzielen.
DRIVE-RL erreicht in seiner Skalierung von 32 Milliarden Parametern eine vergleichbare Leistung wie wesentlich größere Modelle.
Der Ansatz adressiert Limitationen herkömmlicher Methoden durch gezieltes Training auf schwierigen Problemen und die Erweiterung der Lösungsraum-Exploration.
Die Forschung unterstreicht die Bedeutung von Datenkuratierung und Lehrplangestaltung im Reinforcement Learning mit verifizierbaren Belohnungen (RLVR).

Die rapide Entwicklung im Bereich der künstlichen Intelligenz führt zu stetig neuen Durchbrüchen, insbesondere in der Generierung und Optimierung von Code. Ein aktuelles Beispiel hierfür ist die Veröffentlichung von DRIVE-RL durch Tencent auf Hugging Face. Dieses Modell stellt einen State-of-the-Art-Ansatz für die kompetitive Codegenerierung dar, der durch eine innovative zweistufige Reinforcement-Learning-Pipeline und spezialisierte Datenkuratierung signifikante Leistungsverbesserungen erzielt.

Grundlagen und Motivation von DRIVE-RL

Kürzlich vorgestellte Modelle, die auf „Reasoning-First“-Prinzipien basieren, wie beispielsweise OpenAI O1 oder DeepSeek R1, haben das Interesse an Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) neu entfacht. Bislang konzentrierten sich Fortschritte in diesem Bereich jedoch primär auf mathematische Aufgaben, während die Codegenerierung für wettbewerbsorientierte Programmieraufgaben eine weniger erforschte Domäne darstellte. Insbesondere die Bedeutung der Datenkuratierung fand dabei weniger Beachtung als das Design von RL-Algorithmen selbst.

DRIVE-RL adressiert diese Lücke, indem es die Konstruktion von RLVR-Datensätzen (sog. RL-Prompts) und praktische Trainingstechniken untersucht, die zu einer starken Performance in der kompetitiven Codegenerierung führen. Die zugrundeliegende Pipeline beginnt mit einem überwachten Fine-Tuning (SFT), das von starken Open-Source-Modellen abgeleitet und mit allgemeinen sowie reasoning-intensiven Daten angereichert wird.

Der zweistufige Reinforcement-Learning-Prozess

Der Kern von DRIVE-RL ist ein zweistufiger Reinforcement-Learning-Prozess, der mit ausführbaren, testfallbasierten Belohnungen arbeitet. Dieser Ansatz wurde entwickelt, um die Einschränkungen herkömmlicher SFT- und RLVR-Methoden systematisch zu überwinden, indem er die Exploration des Lösungsraums erweitert, redundante Generierungen reduziert und die Leistung bei anspruchsvollen Problemen verbessert.

Phase 1: Entropieerweiterung

Die erste Phase konzentriert sich auf die Entropieerweiterung. Hierbei wird das Modell auf einem großen, gleichmäßig verteilten Satz von Problemen aus dem Bereich des kompetitiven Programmierens trainiert. Dabei kommt die Group Relative Policy Optimization (GRPO) zum Einsatz, typischerweise mit 8 Rollouts pro Prompt und einem relativ kurzen Antwortgenerierungsfenster. Ziel dieser Phase ist es, die Entropie zu erweitern und wiederholende Muster sowie abgeschnittene Ausgaben zu minimieren. Dies führt zu einer erhöhten Vielfalt der Modellausgaben und verbessert die allgemeinen Fähigkeiten des Modells im kompetitiven Programmieren.

Phase 2: Hard-Focus Curriculum (Pre-GRPO)

In der zweiten Phase, genannt Pre-GRPO, erfolgt ein Update auf einem kleineren, qualitativ hochwertigen Satz anspruchsvoller Probleme. Hierbei wird ein großes Rollout-Budget (typischerweise 64 Rollouts pro Prompt) unter einem "Hard-Focus Curriculum" verwendet. Dieses Curriculum behält kontinuierlich die schwierigsten Instanzen während des gesamten Trainings bei. Es wurde empirisch festgestellt, dass ein großes Rollout-Budget entscheidend für stabile Leistungssteigerungen bei herausfordernden Problemen ist. Diese gezielte Konzentration auf schwierige Fälle ermöglicht es dem Modell, die komplexesten Probleme zu meistern und seine Problemlösungsfähigkeiten an die Grenzen des Machbaren zu verschieben.

Implementierung und Evaluierung

Die Methode wurde auf dem Qwen2.5-32B-Modell implementiert und auf aktuellen wöchentlichen Wettbewerben von LeetCode und Codeforces evaluiert, um Datenlecks zu vermeiden. Dies gewährleistet eine objektive Bewertung der Modellleistung unter realitätsnahen Bedingungen. Die Ergebnisse zeigen, dass das resultierende Modell eine State-of-the-Art-Leistung unter Modellen ähnlicher Größe erzielt und mit führenden Systemen wie DeepSeek v3.1 und Doubao-1.5-Thinking vergleichbar ist. Besonders hervorzuheben sind die starken Zugewinne bei schwierigen Problemen, die eine relative Verbesserung von bis zu 58% gegenüber ähnlich skalierten Modellen auf Codeforces zeigten.

Zusätzlich wurden Skalierungstrends untersucht, die eine starke RL-Skalierung auf einem internen großskaligen MoE-Modell (Mixture-of-Experts) belegen. Die Studie destilliert prägnante Best Practices für Datenkuratierung, Entropieerweiterung und Curriculum-Design im RLVR für die Codegenerierung im Wettbewerbsumfeld.

Wichtige Erkenntnisse und Implikationen

Die durchgeführten Experimente und Analysen liefern mehrere kritische Einsichten:

- Das Standard-RL-Training stößt bei schwierigen Problemen an seine Grenzen, was eine Obergrenze für die Leistungsfähigkeit des Modells darstellt. - Ein großes Rollout-Budget (64+ Samples) ist unerlässlich, um anspruchsvolle Fälle zu meistern. - Ein progressives Curriculum-Lernen, das kontinuierlich die schwierigsten Probleme beibehält, übertrifft eine gleichmäßige Verteilung des Schwierigkeitsgrades. - Beide Phasen des Trainings – Entropieerweiterung und Hard-Focus Curriculum – sind für eine optimale Leistung synergetisch und notwendig. Die Entropieerweiterung ermöglicht eine robuste Generalisierung, während das Hard-Focus Curriculum die Problemlösungsgrenze verschiebt.

Diese Ergebnisse deuten darauf hin, dass eine sorgfältige Gestaltung des Curriculums und ein strategischer Einsatz von Rechenressourcen zu erheblichen Verbesserungen bei den Fähigkeiten zur kompetitiven Programmierung führen können. Dies bietet einen Fahrplan für zukünftige Arbeiten in diesem anspruchsvollen Bereich.

Ausblick

DRIVE-RL von Tencent demonstriert, dass durch innovative Trainingsstrategien und eine gezielte Datenkuratierung bemerkenswerte Fortschritte in der KI-gestützten Codegenerierung erzielt werden können. Die Erkenntnisse aus dieser Forschung sind nicht nur für die Weiterentwicklung von Code-LLMs relevant, sondern bieten auch wertvolle Anhaltspunkte für die Optimierung von Reinforcement-Learning-Systemen in anderen anspruchsvollen Domänen. Die Kombination aus datengetriebenen Best Practices und algorithmischer Innovation ebnet den Weg für noch leistungsfähigere und effizientere KI-Partner in der Softwareentwicklung.

Bibliographie

- Zhu, S., Cai, J., Chen, G., Wu, L., Yang, S., & Zhou, W. (2025). DRIVE: Data Curation Best Practices for Reinforcement Learning with Verifiable Reward in Competitive Code Generation. arXiv preprint arXiv:2511.06307. - AI Research Roundup. (2025, November 11). DRIVE: Data Curation for RLVR in Code Gen. YouTube. - Tencent. (n.d.). Tencent on Hugging Face. Abgerufen von https://huggingface.co/tencent - Hugging Face. (n.d.). Daily Papers. Abgerufen von https://huggingface.co/papers - Smol AI. (2025, October 3). Not much happened today | AINews. Abgerufen von https://news.smol.ai/issues/25-10-03-not-much/