Code4MeV2: Innovative Plattform zur Forschung in der KI-gestützten Code-Vervollständigung

Kategorien:

No items found.

Freigegeben:

October 14, 2025

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Code4MeV2 ist eine quelloffene Code-Vervollständigungsplattform, die speziell für die Forschung im Bereich Mensch-KI-Interaktion entwickelt wurde.
Sie adressiert die Herausforderung, dass Benutzerinteraktionsdaten von KI-gestützten Code-Vervollständigungstools oft proprietär sind und der akademischen Forschung nicht zugänglich sind.
Die Plattform bietet eine modulare und transparente Datenerfassungsstruktur, die Forschenden eine detaillierte Kontrolle über Telemetrie- und Kontextdaten ermöglicht.
Code4MeV2 integriert sich als Plugin in JetBrains IDEs und beinhaltet Inline-Code-Vervollständigung sowie einen kontextsensitiven Chat-Assistenten.
Mit einer durchschnittlichen Latenzzeit von 200 ms erreicht Code4MeV2 eine branchenübliche Leistung bei der Code-Vervollständigung.
Studien zeigen, dass die Integration von Code-Suchmechanismen die Leistung der Code-Vervollständigung und -Generierung signifikant verbessert, insbesondere bei großen Sprachmodellen.
Die Forschung hebt die Bedeutung der Suchstrategie und eine begrenzte Anzahl qualitativ hochwertiger Code-Beispiele (Shots) für optimale Ergebnisse hervor.

Code4MeV2: Eine Forschungsplattform für intelligente Code-Vervollständigung

Die Softwareentwicklung erlebt durch den zunehmenden Einsatz von KI-gestützten Code-Vervollständigungstools einen Wandel. Diese Systeme, die Entwicklern während des Kodierens Vorschläge unterbreiten, haben sich als wertvolle Helfer etabliert. Allerdings bleiben die dabei generierten Benutzerinteraktionsdaten oft im Besitz großer Unternehmen, was die akademische Forschung in diesem Bereich erschwert. Für Wissenschaftler, die menschliche-KI-Interaktion studieren, bedeutet dies häufig, eigene Plattformen entwickeln zu müssen, was die Reproduzierbarkeit und groß angelegte Datenanalysen behindert.

Als Reaktion auf diese Herausforderung wurde Code4MeV2 vorgestellt – eine quelloffene, forschungsorientierte Code-Vervollständigungsplattform. Sie ist als Plugin für JetBrains Integrierte Entwicklungsumgebungen (IDEs) konzipiert und bietet eine Lösung für die genannten Einschränkungen.

Architektur und Kernfunktionen

Code4MeV2 basiert auf einer Client-Server-Architektur und integriert sowohl die Inline-Code-Vervollständigung als auch einen kontextsensitiven Chat-Assistenten. Das zentrale Element der Plattform ist ein modularer und transparenter Rahmen zur Datenerfassung. Dieser ermöglicht es Forschenden, eine präzise Kontrolle über Telemetrie- und Kontextdaten auszuüben. Zu den Hauptmerkmalen gehören:

Echtzeit-Code-Vervollständigung: Nutzung von Multi-Modell-KI-Inferenz mit WebSocket-Streaming für schnelle Vorschläge.
Kollaborative Entwicklung: Unterstützung für Multi-User-Projektmanagement und Sitzungsverfolgung, ideal für empirische Studien zum Entwicklerverhalten.
Erweiterte Analysen: Umfassende Telemetrie- und Verhaltensanalyse-Tools in einer speziellen Analyseplattform.
Forschungsplattform: Werkzeuge zur Sammlung von Ground-Truth-Daten und zur Modellevaluierung.

Die Plattform erreicht eine durchschnittliche Latenzzeit von 200 ms, was die Leistung mit industriellen Standards vergleichbar macht. Eine Kombination aus Expertenbewertungen und einer Nutzerstudie mit acht Teilnehmenden hat die Informativität und Nützlichkeit des Tools bestätigt.

Integration von Code-Suche zur Leistungssteigerung

Ein wesentlicher Aspekt der Forschung rund um Code4MeV2 ist die Untersuchung, wie Code-Suchmechanismen die Leistung von Code-Vervollständigungs- und -Generierungsaufgaben verbessern können. Die Ergebnisse zeigen, dass ein Framework, das Code-Suche integriert, die Leistung von Code-Vervollständigung bei allgemeinen Deep-Learning-Modellen sowie die Code-Generierung bei großen Sprachmodellen (LLMs) deutlich steigert.

Auswirkungen auf allgemeine Deep-Learning-Modelle

Studien haben gezeigt, dass die Integration von Code-Suchfunktionen die Leistung etablierter Deep-Learning-Modelle (wie LSTM, Transformer Decoder, Transformer-XL und CodeGPT) bei der Code-Vervollständigung verbessert. Insbesondere die NL2NL-Suchstrategie, die Textähnlichkeit zur Auffindung ähnlichen Codes nutzt, erzielte die größten Verbesserungen. Dies unterstreicht die Effektivität, ähnliche Modalitäten für Abfrage und Ziel zu verwenden.

Die Verbesserung war bei Identifikatoren ausgeprägter als bei Separatoren, da letztere oft regelmäßigen Mustern folgen und die ursprünglichen Modelle bereits hohe Genauigkeitsraten aufweisen.
DL-basierte Retriever zeigten bei der NL2Code-Suchstrategie (Abfrage in natürlicher Sprache, Code als Ziel) eine bessere Leistung als IR-basierte Retriever, was auf ihre Fähigkeit zur Überbrückung von Modalitätsunterschieden hinweist.

Leistungssteigerung bei großen Sprachmodellen (LLMs)

Besonders bemerkenswert sind die Verbesserungen bei LLMs wie ChatGPT und GPT-3.5. Das retrieval-augmented Framework führte zu signifikanten Leistungssteigerungen bei der Code-Generierung, teilweise über 100% im BLEU-4-Score. Diese Ergebnisse deuten darauf hin, dass LLMs eine überlegene Fähigkeit besitzen, lange Eingaben zu verarbeiten und aus den abgerufenen Code-Beispielen zu lernen, um logisch korrekten Code zu generieren.

LLMs zeigten in Python eine deutlich höhere Leistungssteigerung als in Java, was darauf hindeuten könnte, dass sie in Python eine höhere Kompetenz aufweisen.
Auch hier erwies sich die NL2NL-Suchstrategie als die effektivste.

Einfluss der Shot-Anzahl und Prompt-Templates

Die Forschung untersuchte auch den Einfluss der Anzahl der bereitgestellten Code-Beispiele (sogenannte "Shots") und der Gestaltung von Prompt-Templates auf die Leistung von retrieval-augmented ChatGPT. Es zeigte sich, dass eine kleine Anzahl hochwertiger Beispiele (1 bis 2 Shots) zu den größten Verbesserungen führt. Eine weitere Erhöhung der Shot-Anzahl brachte keine linearen Verbesserungen und konnte sogar zu Leistungsschwankungen führen, möglicherweise aufgrund abnehmender Relevanz der Beispiele oder erhöhter Komplexität der Prompt-Länge.

ChatGPT zeigte sich robust gegenüber verschiedenen Prompt-Templates. Die Kombination aus "detaillierter, impliziter, zweistufiger" Anweisung erwies sich als besonders effektiv, während andere Templates ebenfalls gute Ergebnisse lieferten.

Zeitliche Effizienz der Retriever

Die Latenzzeit ist ein entscheidender Faktor für die Benutzererfahrung bei Code-Vervollständigungstools. Die Analyse der zeitlichen Effizienz verschiedener Retriever (IR-basierte und DL-basierte) ergab:

Lucene (IR-basiert) zeigte sich in den Trainings- und Indexierungsphasen als am schnellsten, da es keine vorherige Modellschulung erfordert.
DL-basierte Retriever benötigen für das Training und die Indexierung mehr Zeit, diese Prozesse erfolgen jedoch in der Regel offline und einmalig.
Die eigentliche Suchzeit der Retriever war mit weniger als 0,05 Sekunden pro Suche bei allen eingesetzten Tools sehr gering, was darauf hindeutet, dass die Code-Suche keinen nennenswerten Engpass in der Benutzererfahrung darstellt.

Praktische Implikationen und zukünftige Forschungsrichtungen

Die Ergebnisse dieser Forschung liefern wichtige Erkenntnisse für die Entwicklung und Optimierung von KI-gestützten Code-Vervollständigungstools:

Suchstrategie: Die Verwendung gleicher Modalitäten für Abfrage und Ziel (z.B. NL2NL) sowie das Sammeln bimodaler Korpora (NL-Code-Paare) werden empfohlen, um die Suchergebnisse zu optimieren.
Suchtechnik: IR-basierte Tools wie Lucene sind oft eine kosteneffiziente Wahl, während DL-basierte Tools bei der NL2Code-Strategie aufgrund ihrer Fähigkeit, über Modalitäten hinweg Beziehungen zu erfassen, vorteilhaft sind.
Anzahl der Shots: Eine begrenzte Anzahl hochwertiger Code-Beispiele (1-2 Shots) in Prompts führt zu optimalen Ergebnissen bei LLMs.

Code4MeV2 stellt nicht nur eine leistungsstarke Plattform für die Code-Vervollständigung dar, sondern auch ein wertvolles Werkzeug für die akademische Forschung. Es ermöglicht eine transparente Datenerfassung und detaillierte Studien zur Mensch-KI-Interaktion im Kontext der Softwareentwicklung. Zukünftige Arbeiten könnten den tiefgreifenden Einfluss von Retrieval-Ansätzen auf weitere Aufgaben im Software-Engineering untersuchen und so das volle Potenzial dieser Technologien erschließen.

Die quelloffene Natur von Code4MeV2 fördert die Zusammenarbeit und ermöglicht es der Gemeinschaft, das Tool weiterzuentwickeln und zu adaptieren, um die Herausforderungen der modernen Softwareentwicklung gemeinsam zu meistern.

Bibliographie

- Koohestani, R., Bateni, P., Ebrahimi, A., Etezadi, B., Karimi, K., & Izadi, M. (2025). *Code4MeV2: a Research-oriented Code-completion Platform*. arXiv preprint arXiv:2510.03755. - AISE-TUDelft. (n.d.). *code4me2-server*. GitHub. Verfügbar unter: https://github.com/AISE-TUDelft/code4me2-server - ChatPaper. (n.d.). *Code4MeV2：面向研究的代码补全平台 - 论文详情*. Verfügbar unter: https://www.chatpaper.ai/zh/dashboard/paper/f097915b-52b7-43c4-b4db-06c9fe6ca2a0 - Hugging Face. (n.d.). *Paper page - Code4MeV2: a Research-oriented Code-completion Platform*. Verfügbar unter: https://huggingface.co/papers/2510.03755 - fugumt. (n.d.). *論文の概要: Code4MeV2: a Research-oriented Code-completion Platform*. Verfügbar unter: https://fugumt.com/fugumt/paper_check/2510.03755v1 - code4me-me. (n.d.). *code4me: Two Automatic code completion*. GitHub. Verfügbar unter: https://github.com/code4me-me/code4me - AISE-TUDelft. (n.d.). *Code4MeEvaluation*. GitHub. Verfügbar unter: https://github.com/AISE-TUDelft/Code4MeEvaluation - Chen, J., Hu, X., Li, Z., Gao, C., Xia, X., & Lo, D. (2024). *Code Search Is All You Need? Improving Code Suggestions with Code Search*. ICSE ’24. Verfügbar unter: https://ginolzh.github.io/papers/ICSE2024_Code_Suggestion.pdf