Jetzt reinschauen – neue Umgebung live

LeetCodeDataset: Neuer Ansatz zur Evaluierung von Code-generierenden Sprachmodellen

Kategorien:
No items found.
Freigegeben:
April 24, 2025

Artikel jetzt als Podcast anhören

LeetCodeDataset: Ein Neuer Benchmark für Code-Generierende LLMs

Die Entwicklung und Evaluierung von Large Language Models (LLMs), die Code generieren können, stellt die Forschung vor diverse Herausforderungen. Zwei zentrale Probleme sind der Mangel an Benchmarks, die das logische Denken von Modellen im Kontext der Codegenerierung ausreichend prüfen, und das Fehlen von in sich geschlossenen Trainingsumgebungen. Ein neuartiger Datensatz namens LeetCodeDataset adressiert diese Herausforderungen und bietet eine robuste Grundlage für die Bewertung und das effiziente Training von Code-LLMs.

Aufbau und Vorteile des LeetCodeDataset

Der LeetCodeDataset basiert auf Python-Programmieraufgaben der Online-Plattform LeetCode. Durch die sorgfältige Auswahl von Problemen mit reichhaltigen Metadaten, breiter Themenabdeckung und über 100 Testfällen pro Aufgabe, ermöglicht der Datensatz eine umfassende Evaluierung der Modellleistung. Ein besonderer Vorteil des LeetCodeDataset liegt in der zeitlichen Aufteilung der Daten in "vor" und "nach" Juli 2024. Diese Trennung ermöglicht kontaminationsfreie Tests, da Modelle nur mit Daten trainiert werden, die vor einem bestimmten Zeitpunkt veröffentlicht wurden, und anschließend mit Aufgaben evaluiert werden, die nach diesem Zeitpunkt erstellt wurden. Dies verhindert, dass Modelle durch versehentliches Auswendiglernen von Testdaten unrealistisch hohe Leistungen erzielen.

Ein weiterer wichtiger Aspekt des LeetCodeDataset ist die Möglichkeit des effizienten Supervised Fine-Tuning (SFT). Experimente haben gezeigt, dass bereits mit einer vergleichsweise geringen Anzahl von 2.600 modellgenerierten Lösungen eine Performance erreicht werden kann, die mit der von Modellen vergleichbar ist, die mit 110.000 Beispielen trainiert wurden. Diese Effizienzsteigerung im Trainingsprozess ist insbesondere für ressourcenintensive LLMs von großer Bedeutung.

Fokus auf Logisches Denken

Der LeetCodeDataset legt einen besonderen Schwerpunkt auf die Bewertung der Fähigkeit von LLMs, logische Schlussfolgerungen im Kontext der Codegenerierung zu ziehen. In ersten Tests zeigte sich, dass Modelle, die speziell für logisches Denken trainiert wurden, deutlich bessere Ergebnisse erzielten als Modelle ohne diese Spezialisierung. Dies unterstreicht die Bedeutung von Benchmarks wie dem LeetCodeDataset, die explizit auf die Bewertung dieser Fähigkeit ausgerichtet sind.

Verfügbarkeit und Ausblick

Der LeetCodeDataset sowie das zugehörige Evaluierungsframework sind öffentlich zugänglich und stehen Forschern und Entwicklern auf Plattformen wie Hugging Face und Github zur Verfügung. Dieser offene Zugang soll die Weiterentwicklung von Code-LLMs fördern und die Vergleichbarkeit von Forschungsergebnissen erleichtern. Der LeetCodeDataset stellt einen wichtigen Schritt in Richtung robusterer und effizienterer Trainings- und Evaluierungsmethoden für Code-generierende LLMs dar und trägt dazu bei, das Potenzial dieser Technologie weiter auszuschöpfen.

Bibliographie: - https://huggingface.co/papers - https://arxiv.org/html/2407.05437v1 - https://arxiv.org/abs/2311.09821 - https://scads.ai/theses/creating-a-dataset-of-complex-temporal-questions-for-testing-large-language-models-llms/ - https://openreview.net/forum?id=44CoQe6VCq - https://aclanthology.org/2024.findings-acl.374.pdf - https://github.com/codefuse-ai/Awesome-Code-LLM - https://paperswithcode.com/dataset/tgb - https://github.com/ZigeW/data_management_LLM - https://github.com/newfacade/LeetCodeDataset - https://huggingface.co/datasets/newfacade/LeetCodeDataset
Was bedeutet das?

Wie können wir Ihnen heute helfen?

Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.