CodeContests+: Erweiterung der Testdaten für KI-Modelle im kompetitiven Programmieren

Kategorien:

No items found.

Freigegeben:

June 10, 2025

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

CodeContests+: Neue Testdaten für präzisere Bewertung von KI-Modellen im kompetitiven Programmieren

Kompetitives Programmieren, bei dem komplexe Aufgaben unter Zeitdruck gelöst werden müssen, ist zu einem wichtigen Bereich für die Entwicklung und Evaluierung von großen Sprachmodellen (LLMs) geworden. Die präzise Erfolgsmessung in diesem Bereich bietet wertvolles Feedback für die Verbesserung der KI-Systeme. Während eine Vielzahl öffentlicher Aufgabenstellungen und Lösungen verfügbar sind, stellt die Beschaffung umfassender Testdaten eine Herausforderung dar. Die Qualität dieser Testfälle ist entscheidend für die Genauigkeit der Bewertung und somit für den Fortschritt in der KI-Entwicklung.

CodeContests+ erweitert den bestehenden Datensatz CodeContests und bietet eine verbesserte Sammlung von Testfällen für das kompetitive Programmieren. Der Datensatz umfasst 11.690 Programmieraufgaben, dazugehörige, qualitativ hochwertige Testfälle, Generatoren für Testfälle, Validatoren, Output-Checker und über 13 Millionen korrekte und inkorrekte Lösungsansätze.

Hochwertige Testfälle durch ein Agentensystem

Ein Kernstück von CodeContests+ ist ein auf LLMs basierendes Agentensystem, das hochwertige Testfälle generiert. Dieses System erstellt nicht nur zufällige Testfälle, sondern auch speziell auf die jeweilige Problemstellung zugeschnittene Testfälle, die verschiedene Sonderfälle und potenzielle Fehlerquellen abdecken. Ein unabhängiger Validator überprüft die Korrektheit der generierten Testfälle und stellt sicher, dass sie den vorgegebenen Bedingungen entsprechen.

Flexible Anzahl an Testfällen und Generatoren

Um den unterschiedlichen Anforderungen an Rechenressourcen gerecht zu werden, bietet CodeContests+ verschiedene Versionen der Testfälle mit zunehmender Anzahl (1x, 2x, ..., 5x). Darüber hinaus stehen Testfallgeneratoren zur Verfügung, die es ermöglichen, beliebig viele zusätzliche Testfälle zu erstellen. Die Befehle zur Ausführung der Generatoren sind im Datensatz enthalten.

Validatoren und Output-Checker für präzise Ergebnisse

Die Einhaltung der spezifischen Bedingungen der Programmieraufgaben, wie Datenbereiche, Formatierungsvorschriften und Datenstrukturvorgaben, ist essentiell für die Gültigkeit der Testfälle. CodeContests+ stellt für jede Aufgabe einen Validator bereit, der die Konformität der Eingabedaten mit den vorgegebenen Einschränkungen überprüft. Für Aufgaben mit mehreren gültigen Lösungen stehen spezielle Output-Checker zur Verfügung, die die Korrektheit der Ausgabe anhand verschiedener Kriterien bewerten.

Evaluierung der Testfallqualität

Die Qualität der Testfälle in CodeContests+ wurde anhand einer großen Anzahl von Lösungsansätzen evaluiert. Für jede Aufgabe wurden 100 korrekte und 100 inkorrekte Lösungen verwendet, um die Fähigkeit der Testfälle zur Unterscheidung zwischen korrekten und inkorrekten Eingaben zu prüfen. Die Ergebnisse dieser Evaluation, einschließlich der True Positive Rate (TPR) und True Negative Rate (TNR), sind im Datensatz dokumentiert. Die Ergebnisse zeigen, dass CodeContests+ im Vergleich zu CodeContests eine deutlich höhere Genauigkeit und insbesondere eine höhere TPR erreicht.

Verbesserte Testfälle für effektiveres Reinforcement Learning

Experimente im Bereich des Reinforcement Learning (RL) mit LLMs bestätigen, dass die verbesserte Qualität der Testfälle in CodeContests+ zu erheblichen Vorteilen im Trainingsprozess führt. Die präzisere Bewertung der Modellleistung durch die hochwertigen Testfälle ermöglicht eine effektivere Anpassung der Modelle und somit eine schnellere Verbesserung ihrer Fähigkeiten im kompetitiven Programmieren.

Bibliographie: https://www.arxiv.org/abs/2506.05817 https://arxiv.org/html/2506.05817 http://paperreading.club/page?id=314397 https://huggingface.co/collections/ByteDance-Seed/codecontestsplus-68467fbdaeb3469bf90eace1 https://paperswithcode.com/dataset/codecontests https://www.chatpaper.ai/zh/dashboard/paper/8bcb5ed9-4bb7-4df2-a4c1-60ed9d892651 https://openreview.net/forum?id=PFdjJiZjPj https://github.com/codefuse-ai/Awesome-Code-LLM https://github.com/google-deepmind/code_contests https://www.researchgate.net/publication/391953831_LogiCase_Effective_Test_Case_Generation_from_Logical_Description_in_Competitive_Programming