Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die stetig wachsende Leistungsfähigkeit großer Sprachmodelle (LLMs) eröffnet neue Horizonte in der Softwareentwicklung. Ein vielversprechender Ansatz zur weiteren Verbesserung dieser Modelle liegt in der Skalierung der Testzeit-Rechenleistung. Wie diese Skalierung jedoch am effektivsten umgesetzt werden kann, ist Gegenstand aktueller Forschung. Ein neuer Beitrag zu diesem Forschungsfeld liefert das System "CodeMonkeys", welches die Skalierung der Testzeit-Rechenleistung im Kontext der Lösung realer Probleme aus dem SWE-bench-Datensatz, einer Sammlung von GitHub-Issues, untersucht.
CodeMonkeys ermöglicht es Modellen, iterativ an einer Codebasis zu arbeiten, indem parallel zum Entwurf einer Codeänderung auch ein Testskript generiert und ausgeführt wird. Für jedes Problem werden mehrere solcher mehrstufigen "Trajektorien" gesampelt, um eine Sammlung von Kandidaten für Codeänderungen zu erzeugen. Dieser Ansatz erlaubt die Skalierung der Testzeit-Rechenleistung sowohl "seriell" durch Erhöhung der Iterationen pro Trajektorie als auch "parallel" durch Erhöhung der Anzahl der Trajektorien pro Problem.
Die parallele Skalierung bietet den Vorteil, dass anfängliche Kosten, wie das Einlesen des relevanten Codekontexts, auf mehrere nachfolgende Samples verteilt werden können. In CodeMonkeys wird dies durch einen einfachen, aber effektiven Mechanismus erreicht: Das LLM liest jede Datei der Codebasis. Zur Auswahl der besten Codeänderung kombiniert CodeMonkeys ein Voting-Verfahren, basierend auf den modellgenerierten Tests, mit einer finalen mehrstufigen Trajektorie, die speziell der Auswahl dient.
Die Ergebnisse zeigen, dass CodeMonkeys mit einem Budget von etwa 2300 US-Dollar 57,4% der Probleme aus dem SWE-bench Verified Datensatz lösen kann. Besonders bemerkenswert ist, dass die von CodeMonkeys verwendete Auswahlmethode auch zur Kombination von Kandidaten aus verschiedenen Quellen eingesetzt werden kann. Durch die Anwendung dieser Methode auf ein Ensemble von Codeänderungen aus bestehenden Top-Einreichungen für SWE-bench Verified konnte eine Erfolgsquote von 66,2% erreicht werden. Dies übertrifft die Leistung der besten einzelnen Einreichung des Ensembles.
Die Entwickler von CodeMonkeys haben sowohl den Code als auch die Daten vollständig veröffentlicht, um weitere Forschung und Entwicklung in diesem Bereich zu fördern. Dieser offene Ansatz unterstreicht das Potenzial von Testzeit-Rechenleistungsskalierung für die Zukunft der KI-gestützten Softwareentwicklung und bietet eine vielversprechende Basis für weitere Innovationen. Die Kombination von iterativer Codegenerierung, automatisiertem Testen und intelligentem Auswahlverfahren ermöglicht es CodeMonkeys, komplexe Programmierprobleme effektiv zu lösen und trägt dazu bei, die Grenzen des Möglichen in der Softwareentwicklung mit KI zu verschieben.
Die Forschungsergebnisse von CodeMonkeys demonstrieren eindrucksvoll, wie durch die Skalierung von Testzeit-Rechenleistung die Fähigkeiten von LLMs in der Softwareentwicklung signifikant gesteigert werden können. Die Möglichkeit, sowohl seriell als auch parallel zu skalieren, eröffnet flexible Anpassungsmöglichkeiten an unterschiedliche Anwendungsfälle und Ressourcenbeschränkungen. Die Veröffentlichung von Code und Daten bietet der Forschungsgemeinschaft wertvolle Ressourcen für die weitere Entwicklung und Optimierung von KI-gestützten Softwareentwicklungswerkzeugen.
Bibliographie: - https://arxiv.org/abs/2501.14723 - https://arxiv.org/pdf/2501.14723? - https://deeplearn.org/arxiv/570059/codemonkeys:-scaling-test-time-compute-for-software-engineering - https://arxiv-sanity-lite.com/?rank=pid&pid=2501.14723 - https://www.linkedin.com/posts/philipp-schmid-a6a2bb196_test-time-compute-scaling-but-in-simple-activity-7276162046050668544-bYxt - https://www.linkedin.com/posts/samanthkoduru_the-idea-of-scaling-test-time-compute-offers-activity-7276327394624385025-Z2BP - https://github.com/FudanSELab/Agent4SE-Paper-List - https://www.researchgate.net/publication/382739350_Large_Language_Monkeys_Scaling_Inference_Compute_with_Repeated_Sampling - https://openreview.net/forum?id=4FWAwZtd2n - https://www.youtube.com/watch?v=QWoslkjR9W4Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen