Neue Maßstäbe in der Code-Vervollständigung durch Microsofts DELULU-Benchmark

Kategorien:

No items found.

Freigegeben:

May 4, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Microsoft hat das "DELULU"-Benchmark auf Hugging Face veröffentlicht, ein neues Evaluierungstool für Code-Vervollständigung.
Das Benchmark konzentriert sich auf "Fill-in-the-Middle" (FIM)-Aufgaben, bei denen Modelle fehlende Code-Segmente vervollständigen.
Es gibt zwei Hauptansätze für FIM-Pretraining: Random-Character FIM (Rand-FIM) und AST-Aware FIM (AST-FIM).
AST-FIM nutzt Abstrakte Syntaxbäume (ASTs), um syntaktisch kohärente Code-Segmente zu maskieren, was realitätsnäheren Code-Bearbeitungsmustern entspricht.
Das neue "Real-FIM-Eval"-Benchmark, basierend auf echten GitHub-Commits, wird zur Bewertung der FIM-Leistung von LLMs eingesetzt.
Ergebnisse zeigen, dass AST-FIM Rand-FIM übertrifft und die L2R-Generierungsfähigkeit von Modellen beibehält.

Die Landschaft der Künstlichen Intelligenz im Bereich der Softwareentwicklung erlebt eine dynamische Entwicklung, insbesondere durch den Fortschritt großer Sprachmodelle (LLMs). Ein aktuelles Beispiel hierfür ist die Veröffentlichung des "DELULU"-Benchmarks durch Microsoft auf Hugging Face. Dieses neue Evaluierungstool zielt darauf ab, die Leistung von LLMs bei der Code-Vervollständigung, insbesondere bei sogenannten "Fill-in-the-Middle" (FIM)-Aufgaben, realistischer und diagnostizierbarer zu gestalten.

Die Herausforderung der Code-Vervollständigung

Die Code-Vervollständigung ist eine zentrale Funktion in modernen Entwicklungsumgebungen und ein wichtiges Anwendungsfeld für code-spezifische LLMs. Traditionelle Benchmarks wie HumanEval oder MBPP konzentrieren sich oft auf die Generierung eigenständiger Funktionen oder einzelner Dateien aus natürlicher Sprachbeschreibung. Sie berücksichtigen jedoch nicht die gängige Praxis, bestehenden Code iterativ zu modifizieren und zu erweitern.

Hier setzt das Konzept des "Fill-in-the-Middle" (FIM) an. Bei FIM-Aufgaben müssen Modelle fehlende Code-Segmente vervollständigen, wobei sowohl der vorhergehende (Präfix) als auch der nachfolgende (Suffix) Kontext berücksichtigt wird. Dies ahmt die realen Interaktionen von Entwicklern beim Schreiben und Bearbeiten von Code nach.

Zwei Ansätze im FIM-Pretraining

Im Kontext des FIM-Pretrainings haben sich zwei Hauptansätze etabliert:

Random-Character FIM (Rand-FIM): Dieser traditionelle Ansatz behandelt Code als reine Zeichensequenz und maskiert zufällige Zeichenspannen oder Token-Positionen. Während er einfach zu implementieren ist, kann er dazu führen, dass syntaktisch unzusammenhängende Code-Fragmente maskiert werden, was nicht den typischen Bearbeitungsmustern von Entwicklern entspricht.
AST-Aware FIM (AST-FIM): Der von Microsoft vorgeschlagene AST-FIM-Ansatz nutzt Abstrakte Syntaxbäume (ASTs) des Codes. Hierbei werden ganze syntaktische Strukturen (Subtrees) maskiert. Dies stellt sicher, dass die Trainingsbeispiele kohärent sind und besser mit universellen Code-Strukturen sowie häufigen Code-Bearbeitungsmustern (wie Blöcken, Ausdrücken oder Funktionen) übereinstimmen.

Das "Real-FIM-Eval"-Benchmark

Um die Effektivität von AST-FIM in realen Szenarien zu bewerten, wurde das "Real-FIM-Eval"-Benchmark entwickelt. Dieses Benchmark zeichnet sich durch folgende Merkmale aus:

Datenquelle: Es basiert auf über 30.000 echten GitHub-Commits aus hochaktiven Projekten, die zwölf verschiedene Programmiersprachen umfassen. Der Datenerfassungszeitraum (Januar 2025 bis Februar 2025) ist bewusst von den Trainingsdaten der Modelle getrennt, um Datenkontamination zu minimieren.
Aufteilung in "Add" und "Edit" Szenarien:
- Add (17.879 Beispiele): Hierbei werden Code-Einfügungen aus Git-Commits verwendet. Der neu hinzugefügte Code wird zum zu prädizierenden "Middle"-Teil, umgeben von Präfix und Suffix des bestehenden Codes.
- Edit (13.922 Beispiele): Dieser Teil verwendet Code-Modifikationen, bei denen ein Segment entfernt und durch ein neues ersetzt wird. Die Aufgabe wird den LLMs in einem Konflikt-Merge-Format präsentiert, wobei der Originalcode als zu entfernender Teil markiert ist und der aktualisierte Code eingefügt werden muss.
Evaluierungsmetrik: Die Leistung wird mittels charakterbasierter Perplexität gemessen. Diese Metrik quantifiziert, wie gut das Modell die Zeichensequenz im erwarteten "Middle"-Teil vorhersagt. Sie bietet ein skalierbares und rauscharmes Signal, was stabile Vergleiche zwischen Modellen ermöglicht. Eine ausführungsbasierte Bewertung wird aufgrund der Komplexität und des Aufwands bei der Skalierung für beliebige Repositories nicht primär verwendet.

Experimentelle Ergebnisse und Einblicke

Die Studien zur Evaluierung von FIM-Methoden wurden mit Llama-3-Architekturen in 1B- und 8B-Parametergrößen durchgeführt. Die Modelle wurden von Grund auf neu trainiert, wobei sowohl Rand-FIM als auch AST-FIM zum Einsatz kamen. Die Trainingsdaten bestanden zu 90% aus Programmiercodes von GitHub und zu 10% aus natürlicher Sprache.

Vergleich der Pretraining-Methoden

Die Ergebnisse zeigen, dass AST-FIM Rand-FIM in allen Unteraufgaben des SAFIM-Benchmarks überlegen ist. Dies liegt daran, dass AST-FIM das Modell direkt darauf trainiert, maskierte AST-Strukturen zu vervollständigen, was gut mit dem Ziel des SAFIM-Benchmarks übereinstimmt, die Vervollständigung von AST-Strukturen zu bewerten. Noch wichtiger ist, dass AST-FIM auch auf dem Real-FIM-Eval-Benchmark eine bessere Leistung als Rand-FIM erzielt. Das durch AST-FIM bereitgestellte Trainingssignal ist besser auf reale Code-Bearbeitungsmuster abgestimmt, was zu einer überlegenen Leistung bei realistischen FIM-Aufgaben führt. Diese Leistungssteigerung ist über den gesamten Trainingsverlauf hinweg konsistent, wobei AST-FIM bereits nach 50-70% der Trainings-Tokens eine ähnliche Leistung wie Rand-FIM erreicht.

Beibehaltung der L2R-Fähigkeit

Ein wesentlicher Befund ist, dass AST-FIM die sogenannte "Left-to-Right" (L2R)-Generierungsfähigkeit der Modelle beibehält, ohne sie zu beeinträchtigen. Während Rand-FIM bei hohen FIM-Raten die L2R-Leistung negativ beeinflussen kann (was möglicherweise auf die Zerstörung kohärenter Code-Strukturen durch zufällige Maskierungen zurückzuführen ist), zeigt AST-FIM eine L2R-Leistung, die nahezu identisch mit der von rein L2R-trainierten Modellen ist. Dies deutet darauf hin, dass AST-FIM durch die Arbeit an sinnvollen Code-Strukturen die strukturelle Kohärenz des Codes bewahrt. Die Trainingsverluste von AST-FIM liegen zwischen denen von Rand-FIM und L2R, was darauf hindeutet, dass AST-FIM komplexer als L2R, aber einfacher als Rand-FIM zu lernen ist.

Skalierbarkeit und Wettbewerbsfähigkeit

Die Erkenntnisse aus den 1B-Modellen bestätigen sich auch bei größeren 8B-Modellen. AST-FIM übertrifft Rand-FIM unter gleichen Bedingungen in L2R-Aufgaben und FIM-Aufgaben (SAFIM und Real-FIM-Eval). Das AST-FIM-Modell mit 8B Parametern, trainiert über 2 Billionen Tokens, zeigt eine wettbewerbsfähige Leistung im Vergleich zu anderen Basismodellen ähnlicher Größe und übertrifft diese in der Regel bei den FIM-Benchmarks.

Einschränkungen und zukünftige Arbeiten

Trotz der vielversprechenden Ergebnisse gibt es weiterhin Bereiche für Verbesserungen:

L2R-Verbesserungen: AST-FIM zeigte keine signifikanten Verbesserungen bei L2R-Generierungsaufgaben im Vergleich zu Modellen, die ausschließlich für L2R trainiert wurden. Dies ist ein bekanntes Problem bei Decoder-only FIM-Modellen. Stärkere Evidenz für den Nutzen von Syntax-Annotationen wäre ein direkter Leistungsanstieg bei L2R-Aufgaben.
Random FIM: Bei der HumanEval Random Span FIM-Aufgabe war AST-FIM (mit 10% Rand-FIM im Datenmix) zunächst etwas schwächer als Rand-FIM, holte aber im Laufe des Trainings auf. Ohne den Rand-FIM-Anteil könnte das Modell Schwierigkeiten haben, mit zufälligen Maskierungen umzugehen, da es sich auf die deterministischen AST-Muster konzentriert. Eine präzisere Abstimmung der FIM-Span-Längen könnte hier weitere Erkenntnisse liefern.

Fazit für die B2B-Zielgruppe

Die Entwicklung des "DELULU"-Benchmarks und die Fortschritte im AST-FIM-Pretraining durch Microsoft stellen einen wichtigen Schritt in der Optimierung von Code-LLMs dar. Für Unternehmen im B2B-Bereich, die auf effiziente und präzise Code-Generierung und -Vervollständigung angewiesen sind, ergeben sich daraus folgende Schlüsselerkenntnisse:

Realitätsnahe Code-Vervollständigung: AST-FIM bietet eine signifikant verbesserte Fähigkeit, Code-Ergänzungen und -Änderungen vorzunehmen, die den tatsächlichen Entwicklerpraktiken entsprechen. Dies führt zu relevanteren und nützlicheren Vorschlägen in Entwicklungsumgebungen.
Effizienzsteigerung: Durch die Beibehaltung der L2R-Generierungsfähigkeiten und die Überlegenheit gegenüber Rand-FIM bei FIM-Aufgaben können Unternehmen von einer höheren Produktivität und Qualität in der Softwareentwicklung profitieren.
Diagnostische Tiefe: Das "Real-FIM-Eval"-Benchmark ermöglicht eine detaillierte Analyse der Stärken und Schwächen von Code-LLMs, was für die Auswahl und Anpassung von Modellen an spezifische Unternehmensanforderungen von Vorteil ist.
Zukunftssicherheit: Die kontinuierliche Forschung und Entwicklung in diesem Bereich, wie sie durch das "DELULU"-Benchmark stimuliert wird, gewährleistet, dass die Fähigkeiten von Code-LLMs weiter verbessert werden, um den sich wandelnden Anforderungen der Softwareentwicklung gerecht zu werden.

Die Integration syntax-bewusster Pretraining-Methoden in Decoder-only LLMs stellt einen Fortschritt dar, der die Fähigkeiten von Code-LLMs im Bereich der Code-Vervollständigung erheblich verbessert, ohne die Kernfunktionen der L2R-Generierung zu beeinträchtigen. Dies eröffnet neue Möglichkeiten für effektivere und intelligentere Werkzeuge in der Softwareentwicklung.

Bibliographie

- Gong, L., Elhoushi, M., Cheung, A., & Wang, S. (2025). Structure-Aware Fill-in-the-Middle Pretraining for Code. arXiv. - Gong, L., Wang, S., Elhoushi, M., & Cheung, A. (2024b). Evaluation of LLMs on Syntax-Aware Code Fill-in-the-Middle Tasks. Hugging Face. - Hugging Face. (o. J.). microsoft/DELULU-FIM-BENCHMARK. Abgerufen am 2. Mai 2026 von https://huggingface.co/datasets/microsoft/DELULU-FIM-BENCHMARK - Hugging Face. (o. J.). sourcegraph/context-aware-fim-code-completions. Abgerufen am 2. Mai 2026 von https://huggingface.co/datasets/sourcegraph/context-aware-fim-code-completions/viewer/ - Microsoft. (o. J.). Microsoft - Hugging Face. Abgerufen am 2. Mai 2026 von https://huggingface.co/microsoft/datasets - Microsoft. (o. J.). Microsoft - Hugging Face. Abgerufen am 2. Mai 2026 von https://huggingface.co/microsoft/models - Microsoft. (o. J.). GitHub - microsoft/NoFunEval: Code and Data for the paper - "NoFunEval: Funny How Code LMs Falter on Requirements Beyond Functional Correctness". Abgerufen am 2. Mai 2026 von http://aka.ms/NoFunEval - Microsoft. (2026, 15. Januar). Microsoft - Hugging Face. Abgerufen am 2. Mai 2026 von https://huggingface.co/microsoft/papers - OpenReview. (o. J.). Beyond Accuracy: Realistic and Diagnostic Evaluation of Code Generation Models. Abgerufen am 2. Mai 2026 von https://openreview.net/pdf?id=MZCFXe4NgR - Pareesa Ameneh Golnari, Adarsh Kumarappan, Wen Wen, Xiaoyu Liu, Gabriel Ryan, Yuting Sun, Shengyu Fu, & Elsie Nallipogu. (2026). DevBench: A Realistic, Developer-Informed Benchmark for Code Generation Models. arXiv.