KI für Ihr Unternehmen – Jetzt Demo buchen

KI-gestütztes Debugging: Microsoft Research präsentiert Debug-Gym

Kategorien:
No items found.
Freigegeben:
April 14, 2025

Artikel jetzt als Podcast anhören

KI lernt debuggen: Microsoft Research entwickelt Debug-Gym

Die zunehmende Integration von KI in der Softwareentwicklung birgt enormes Potenzial, stellt Entwickler aber auch vor neue Herausforderungen. Während KI-Systeme bereits effizient Code generieren können, bleibt das Debuggen ein zeitaufwendiger Prozess. Microsoft Research adressiert dieses Problem mit "Debug-Gym", einer neuen Umgebung, die KI-Tools das Debuggen von Code beibringen soll.

KI-gestützte Codegenerierung im Aufwind

KI-Coding-Assistenten steigern die Produktivität von Entwicklern erheblich. Bereits 2023 prognostizierte GitHub CEO Thomas Dohmke, dass "früher oder später 80% des Codes von Copilot geschrieben werden". Dieser Trend bestätigt sich in der gesamten Branche, sowohl große Unternehmen als auch Startups setzen vermehrt auf KI zur Codegenerierung. Garry Tan von Y Combinator betonte, dass bei einem Viertel der Startups im letzten Batch 95% des Codes von großen Sprachmodellen (LLMs) erstellt wurden.

Die Realität der Softwareentwicklung sieht jedoch anders aus: Ein Großteil der Zeit wird für das Debuggen aufgewendet, nicht für das initiale Schreiben des Codes. Das Microsoft Research Team, selbst Betreuer populärer Open-Source-Repositorys, stellt die Frage: "Was wäre, wenn ein KI-Tool Fixes für hunderte von offenen Issues vorschlagen könnte, und wir müssten diese nur noch genehmigen, bevor sie integriert werden?"

Interaktives Debuggen für KI

Debuggen ist ein interaktiver und iterativer Prozess zur Fehlerbehebung in Code. Entwickler stellen Hypothesen über Abstürze auf, sammeln Beweise durch schrittweise Codeausführung, untersuchen Variablenwerte (oft mit Tools wie dem Python Debugger, pdb) und wiederholen diesen Zyklus, bis das Problem gelöst ist. Debug-Gym zielt darauf ab, KI-Agenten mit ähnlichen Fähigkeiten auszustatten. Die zentrale Frage lautet: "Inwieweit können LLMs interaktive Debugging-Tools wie pdb nutzen?"

Die Umgebung bietet KI-Agenten Zugriff auf Tools zur aktiven Informationssuche und erweitert so ihre Handlungs- und Beobachtungsmöglichkeiten. Agenten in Debug-Gym können Breakpoints setzen, durch Code navigieren, Variablenwerte überprüfen, Testfunktionen erstellen und entscheiden, ob sie weiter untersuchen oder Code basierend auf ihrem Konfidenzniveau umschreiben.

Das Microsoft-Team erklärt: "Wir glauben, dass interaktives Debuggen mit den richtigen Tools Coding-Agenten in die Lage versetzen kann, reale Software-Engineering-Aufgaben zu bewältigen, und dass es für die Forschung an LLM-basierten Agenten von zentraler Bedeutung ist."

Die von diesen verbesserten Agenten vorgeschlagenen Korrekturen – nach menschlicher Genehmigung – würden auf dem spezifischen Codebasis-Kontext, den Details der Programmausführung und der Dokumentation basieren und über bloße Vermutungen auf der Grundlage von Trainingsdaten hinausgehen.

Die Architektur von Debug-Gym

Debug-Gym wurde unter Berücksichtigung mehrerer wichtiger Aspekte entwickelt:

- Repository-Level-Handling: Agenten können auf Dateien im gesamten Code-Repository zugreifen und diese ändern. - Robustheit und Sicherheit: Die Codeausführung erfolgt in Sandbox-Docker-Containern, wodurch die Umgebung isoliert wird, um schädliche Aktionen zu verhindern und gleichzeitig gründliche Tests zu ermöglichen. - Erweiterbarkeit: Die Plattform ist so konzipiert, dass neue Debugging-Tools einfach integriert werden können. - Textbasierte Interaktion: Beobachtungen werden in strukturiertem Text (wie JSON) dargestellt, und Aktionen verwenden eine einfache Textsyntax, um die Kompatibilität mit modernen LLMs zu gewährleisten.

Forscher können Debug-Gym mit benutzerdefinierten Repositorys verwenden und die Leistung von Agenten anhand von Benchmarks wie Aider (einfache Funktionsgenerierung), Mini-Nightmare (kurze, fehlerhafte Beispiele) und SWE-Bench (reale Probleme, die ein tiefes Verständnis der Codebasis erfordern) bewerten.

Vielversprechende erste Ergebnisse und zukünftige Entwicklungen

Erste Experimente mit einem einfachen promptbasierten Agenten, der verschiedene LLMs (einschließlich Claude 3.7, OpenAI o1 und OpenAI o3-mini) mit Debugging-Tools wie eval, view, pdb, rewrite und listdir verwendete, zeigten vielversprechende Ergebnisse. Obwohl selbst mit diesen Tools die Lösung komplexer Probleme wie in SWE-bench Lite eine Herausforderung blieb (Erfolgsrate selten über 50%), war die Leistungssteigerung im Vergleich zu Agenten ohne Debugging-Tools signifikant.

Das Microsoft Research Team sieht den nächsten Schritt in der Feinabstimmung von LLMs speziell für interaktives Debuggen. Dies erfordert die Erstellung spezialisierter Datensätze, die möglicherweise Agenteninteraktionen innerhalb des Debuggers aufzeichnen, während sie Informationen zur Problemlösung sammeln.

Durch die Open-Sourcing von Debug-Gym lädt Microsoft Research die breitere Community ein, zur Weiterentwicklung interaktiver Debugging-Agenten und im Allgemeinen von KI-Agenten beizutragen, die in der Lage sind, aktiv Informationen aus ihrer Umgebung zu suchen.

Bibliographie: https://www.microsoft.com/en-us/research/blog/debug-gym-an-environment-for-ai-coding-tools-to-learn-how-to-debug-code-like-programmers/ https://www.developer-tech.com/news/microsoft-research-teaches-ai-tools-how-to-debug-code/ https://techcrunch.com/2025/04/10/ai-models-still-struggle-to-debug-software-microsoft-study-shows/ https://arstechnica.com/ai/2025/04/researchers-find-ai-is-pretty-bad-at-debugging-but-theyre-working-on-it/ https://dev.ua/en/news/modeli-shtuchnoho-intelektu-vse-shche-ne-spravliaiutsia-z-protsesom-nalahodzhennia-kodu-pokazuie-doslidzhennia-microsoft-1744352163 https://www.microsoft.com/en-us/research/blog/ https://www.techi.com/ai-still-struggles-to-debug-code-effectively/ https://x.com/Gadget_Ry/status/1910672950119874677 https://www.techradar.com/pro/microsoft-study-claims-ai-is-still-struggling-to-debug-software https://www.microsoft.com/en-us/research/publication/debug-gym-a-text-based-environment-for-interactive-debugging/
Was bedeutet das?
Mindverse vs ChatGPT Plus Widget

Warum Mindverse Studio?

Entdecken Sie die Vorteile gegenüber ChatGPT Plus

Sie nutzen bereits ChatGPT Plus? Das ist ein guter Anfang! Aber stellen Sie sich vor, Sie hätten Zugang zu allen führenden KI-Modellen weltweit, könnten mit Ihren eigenen Dokumenten arbeiten und nahtlos im Team kollaborieren.

🚀 Mindverse Studio

Die professionelle KI-Plattform für Unternehmen – leistungsstärker, flexibler und sicherer als ChatGPT Plus. Mit über 50 Modellen, DSGVO-konformer Infrastruktur und tiefgreifender Integration in Unternehmensprozesse.

ChatGPT Plus

❌ Kein strukturierter Dokumentenvergleich

❌ Keine Bearbeitung im Dokumentkontext

❌ Keine Integration von Unternehmenswissen

VS

Mindverse Studio

✅ Gezielter Dokumentenvergleich mit Custom-Prompts

✅ Kontextbewusste Textbearbeitung im Editor

✅ Wissensbasierte Analyse & Zusammenfassungen

📚 Nutzen Sie Ihr internes Wissen – intelligent und sicher

Erstellen Sie leistungsstarke Wissensdatenbanken aus Ihren Unternehmensdokumenten.Mindverse Studio verknüpft diese direkt mit der KI – für präzise, kontextbezogene Antworten auf Basis Ihres spezifischen Know-hows.DSGVO-konform, transparent und jederzeit nachvollziehbar.

ChatGPT Plus

❌ Nur ein Modellanbieter (OpenAI)

❌ Keine Modellauswahl pro Use Case

❌ Keine zentrale Modellsteuerung für Teams

VS

Mindverse Studio

✅ Zugriff auf über 50 verschiedene KI-Modelle

✅ Modellauswahl pro Prompt oder Assistent

✅ Zentrale Steuerung auf Organisationsebene

🧠 Zugang zu allen führenden KI-Modellen – flexibel & anpassbar

OpenAI GPT-4: für kreative Texte und allgemeine Anwendungen
Anthropic Claude: stark in Analyse, Struktur und komplexem Reasoning
Google Gemini: ideal für multimodale Aufgaben (Text, Bild, Code)
Eigene Engines: individuell trainiert auf Ihre Daten und Prozesse

ChatGPT Plus

❌ Keine echte Teamkollaboration

❌ Keine Rechte- oder Rollenverteilung

❌ Keine zentrale Steuerung oder Nachvollziehbarkeit

VS

Mindverse Studio

✅ Teamübergreifende Bearbeitung in Echtzeit

✅ Granulare Rechte- und Freigabeverwaltung

✅ Zentrale Steuerung & Transparenz auf Organisationsebene

👥 Kollaborative KI für Ihr gesamtes Unternehmen

Nutzen Sie Mindverse Studio als zentrale Plattform für abteilungsübergreifende Zusammenarbeit.Teilen Sie Wissen, erstellen Sie gemeinsame Workflows und integrieren Sie KI nahtlos in Ihre täglichen Prozesse – sicher, skalierbar und effizient.Mit granularen Rechten, transparenter Nachvollziehbarkeit und Echtzeit-Kollaboration.

Bereit für den nächsten Schritt?

Sehen Sie Mindverse Studio in Aktion. Buchen Sie eine persönliche 30-minütige Demo.

🎯 Kostenlose Demo buchen

Wie können wir Ihnen heute helfen?

Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
Herzlichen Dank! Deine Nachricht ist eingegangen!
Oops! Du hast wohl was vergessen, versuche es nochmal.

🚀 Neugierig auf Mindverse Studio?

Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

🚀 Demo jetzt buchen