Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die rapide Entwicklung großer Sprachmodelle (LLMs) hat ein wachsendes Interesse an automatischen Forschungsagenten im Bereich des maschinellen Lernens (ML) hervorgerufen. Diese Agenten, die in der Lage sind, eigenständig Ideen zu entwickeln und ML-Experimente durchzuführen, versprechen eine Maximierung der Forschungsautomatisierung und eine Beschleunigung des wissenschaftlichen Fortschritts durch die iterative Verfeinerung von Ideen basierend auf experimentellen Ergebnissen. Die umfassende Bewertung solcher Agenten stellt jedoch weiterhin eine Herausforderung dar. Bestehende Benchmarks neigen dazu, technische Aspekte zu stark zu betonen und die akademische Strenge zu vernachlässigen. Dies erschwert eine klare Einschätzung der wissenschaftlichen Fähigkeiten eines Agenten in der ML-Forschung. Hinzu kommen Einschränkungen in der Aufgabenvielfalt, eine Überbetonung anwendungsorientierter Aufgaben gegenüber grundlegenden Forschungsproblemen und eine begrenzte Skalierbarkeit auf realistische Forschungsumgebungen.
Um diese Limitationen zu adressieren, wurde FML-bench entwickelt, ein Benchmark, der die Bewertung automatischer ML-Forschungsagenten anhand von acht diversen und grundlegenden ML-Forschungsproblemen ermöglicht. Dieser Benchmark wurde konzipiert, um den Kodieraufwand zu reduzieren, grundlegende Probleme statt spezifischer Anwendungsfälle zu betonen, eine hohe Aufgabenvielfalt zu bieten und auf reale ML-GitHub-Repositories erweiterbar zu sein.
FML-bench ist auf mehreren zentralen Designprinzipien aufgebaut, die eine realitätsnahe und umfassende Bewertung gewährleisten sollen:
Ein vereinheitlichtes Eingabe-Ausgabe-Interface wurde implementiert, um die Diversität der realweltlichen Repositories zu handhaben. Agenten erhalten strukturierte Eingaben, die Aufgabenbeschreibungen, vollständigen Repository-Code, vorgeschlagene modifizierbare Dateien, geschützte Dateien, Experimentbefehlslisten, Baseline-Leistung und Zielmetriken umfassen. Ein Post-Processing-Modul wandelt diverse Repository-Outputs in ein standardisiertes Format für eine konsistente Metrikextraktion um.
Das Papier präsentiert ein vereinheitlichtes Optimierungsframework für Agenten, die in iterativen Verfeinerungszyklen arbeiten. Ziel ist es, eine Zielfunktion zu maximieren, die verschiedene Aspekte der Agentenleistung berücksichtigt:
$$ \max_{T, {q_t, m_t}_{t=1}^T} \sum_{t=1}^T [U_t + \lambda A_t - \eta P_t] + \gamma S(M, C_1) + \beta D(H) $$
Hierbei sind die Schlüsselkomponenten:
Effektive Agenten sollten zudem Designprinzipien erfüllen, die eine Explorationsbreite, algorithmische Innovation, zuverlässige Ausführung und die Einhaltung von Rechenbudgets sicherstellen.
Im Rahmen der Studie wurden drei fortschrittliche automatische Forschungsagenten auf FML-bench evaluiert:
Diese Agenten wurden mit führenden Large Language Models (LLMs) integriert: GPT-5 und Gemini-2.5-Pro für TheAIScientist und AIDE, sowie Opus-4.1 für Claude Code. Jeder Agent erhielt ein Budget von 100 Iterationen über drei unabhängige Runden.
Die zentralen Ergebnisse der Evaluation sind:
Die Studie kommt zu dem Schluss, dass FML-bench eine robuste Grundlage für die Bewertung von Forschungsagenten bietet. Die Ergebnisse unterstreichen, dass die Priorisierung der Breite der Forschungsexploration entscheidend ist, um effektivere und generalisierbarere Ergebnisse in der automatischen ML-Forschung zu erzielen. Diese Erkenntnisse sind für die Weiterentwicklung von KI-gestützten Forschungstools von Bedeutung und könnten die Entwicklung zukünftiger autonomer ML-Agenten maßgeblich beeinflussen.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen