Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Die Lösung von GitHub-Issues ist eine entscheidende Aufgabe im Bereich der Softwareentwicklung und hat in den letzten Jahren sowohl in der Industrie als auch in der akademischen Welt erheblich an Bedeutung gewonnen. Vor diesem Hintergrund wurde SWE-bench entwickelt, um die Fähigkeiten von großen Sprachmodellen (LLMs) bei der Lösung von Issues zu bewerten. Bislang konzentrierte sich SWE-bench jedoch ausschließlich auf die Python-Version. Aufgrund der starken Nachfrage in der Industrie ist es jedoch auch wichtig, weitere Programmiersprachen zu unterstützen. Als erster Schritt in Richtung mehrsprachiger Unterstützung haben wir eine Java-Version von SWE-bench entwickelt, die als SWE-bench-java bekannt ist.
Mehrsprachige Unterstützung in der Softwareentwicklung ist von entscheidender Bedeutung, da Unternehmen weltweit verschiedene Programmiersprachen verwenden. Während Python eine weit verbreitete Sprache ist, wird Java in vielen großen Unternehmen und kritischen Systemen bevorzugt. Die Unterstützung von Java in SWE-bench-java erweitert daher die Anwendungsfälle erheblich und macht den Benchmark relevanter für eine breitere Palette von Entwicklern und Unternehmen.
Wir haben das Dataset von SWE-bench-java öffentlich freigegeben, zusammen mit der entsprechenden Docker-basierten Evaluierungsumgebung und einer Bestenliste, die in den kommenden Monaten kontinuierlich gepflegt und aktualisiert wird. Diese Infrastruktur ermöglicht es Entwicklern und Forschern, ihre Modelle und Lösungen auf einfache Weise zu testen und zu vergleichen.
Um die Zuverlässigkeit von SWE-bench-java zu überprüfen, haben wir eine klassische Methode namens SWE-agent implementiert und mehrere leistungsstarke LLMs darauf getestet. Die Entwicklung eines hochwertigen, mehrsprachigen Benchmarks ist bekanntlich zeitaufwendig und arbeitsintensiv. Daher begrüßen wir Beiträge durch Pull-Requests oder Zusammenarbeit, um die Iteration und Verfeinerung des Benchmarks zu beschleunigen und den Weg für vollautomatisierte Programmierung zu ebnen.
Die Einführung von SWE-bench-java ist ein bedeutender Schritt in der Weiterentwicklung der Evaluierungsmechanismen für Sprachmodelle. Während viele Benchmarks sich auf einfache oder isolierte Aspekte der Programmierung konzentrieren, stellt SWE-bench-java realistische, komplexe Herausforderungen dar, die in der realen Welt auftreten. Dies umfasst das Verständnis und die Koordination von Änderungen über mehrere Funktionen, Klassen und Dateien hinweg, was ein tiefes Verständnis und eine komplexe Argumentation erfordert, die weit über die traditionelle Code-Generierung hinausgehen.
Unsere Evaluierungen zeigen, dass sowohl proprietäre Modelle als auch unser fein abgestimmtes Modell SWE-Llama nur die einfachsten Issues lösen können. Fortschritte bei SWE-bench-java repräsentieren daher Schritte in Richtung praktischere, intelligentere und autonomere Sprachmodelle. Wir hoffen, dass diese Arbeit die Forschung und Entwicklung in diesem Bereich vorantreiben wird und freuen uns auf zukünftige Beiträge und Verbesserungen.
SWE-bench-java stellt einen bedeutenden Fortschritt in der Evaluierung von Sprachmodellen dar, indem es die Unterstützung für Java einführt und somit die Anwendungsfälle erweitert. Die kontinuierliche Pflege und Verbesserung des Benchmarks sowie die Einladung zur Zusammenarbeit bieten eine solide Grundlage für zukünftige Entwicklungen und Innovationen in der automatisierten Programmierung.
Entdecken Sie die Vorteile gegenüber ChatGPT Plus
Sie nutzen bereits ChatGPT Plus? Das ist ein guter Anfang! Aber stellen Sie sich vor, Sie hätten Zugang zu allen führenden KI-Modellen weltweit, könnten mit Ihren eigenen Dokumenten arbeiten und nahtlos im Team kollaborieren.
Die professionelle KI-Plattform für Unternehmen – leistungsstärker, flexibler und sicherer als ChatGPT Plus. Mit über 50 Modellen, DSGVO-konformer Infrastruktur und tiefgreifender Integration in Unternehmensprozesse.
❌ Kein strukturierter Dokumentenvergleich
❌ Keine Bearbeitung im Dokumentkontext
❌ Keine Integration von Unternehmenswissen
✅ Gezielter Dokumentenvergleich mit Custom-Prompts
✅ Kontextbewusste Textbearbeitung im Editor
✅ Wissensbasierte Analyse & Zusammenfassungen
Erstellen Sie leistungsstarke Wissensdatenbanken aus Ihren Unternehmensdokumenten.Mindverse Studio verknüpft diese direkt mit der KI – für präzise, kontextbezogene Antworten auf Basis Ihres spezifischen Know-hows.DSGVO-konform, transparent und jederzeit nachvollziehbar.
❌ Nur ein Modellanbieter (OpenAI)
❌ Keine Modellauswahl pro Use Case
❌ Keine zentrale Modellsteuerung für Teams
✅ Zugriff auf über 50 verschiedene KI-Modelle
✅ Modellauswahl pro Prompt oder Assistent
✅ Zentrale Steuerung auf Organisationsebene
❌ Keine echte Teamkollaboration
❌ Keine Rechte- oder Rollenverteilung
❌ Keine zentrale Steuerung oder Nachvollziehbarkeit
✅ Teamübergreifende Bearbeitung in Echtzeit
✅ Granulare Rechte- und Freigabeverwaltung
✅ Zentrale Steuerung & Transparenz auf Organisationsebene
Nutzen Sie Mindverse Studio als zentrale Plattform für abteilungsübergreifende Zusammenarbeit.Teilen Sie Wissen, erstellen Sie gemeinsame Workflows und integrieren Sie KI nahtlos in Ihre täglichen Prozesse – sicher, skalierbar und effizient.Mit granularen Rechten, transparenter Nachvollziehbarkeit und Echtzeit-Kollaboration.
Sehen Sie Mindverse Studio in Aktion. Buchen Sie eine persönliche 30-minütige Demo.
🎯 Kostenlose Demo buchenLernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen