FML-bench als neuer Benchmark zur Evaluierung automatischer ML-Forschungsagenten

Kategorien:

No items found.

Freigegeben:

October 20, 2025

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

FML-bench ist ein neuer Benchmark zur Bewertung automatischer ML-Forschungsagenten.
Er deckt acht diverse und grundlegende ML-Forschungsprobleme ab.
Der Benchmark legt Wert auf die Breite der Exploration gegenüber tiefer, aber schmaler Forschung.
Eine breite Explorationsstrategie führte zu besseren Forschungsergebnissen.
FML-bench reduziert den Kodieraufwand und ist auf reale GitHub-Repositories erweiterbar.

FML-bench: Ein neuer Maßstab für autonome ML-Forschungsagenten und die Bedeutung breiter Exploration

Die rapide Entwicklung großer Sprachmodelle (LLMs) hat ein wachsendes Interesse an automatischen Forschungsagenten im Bereich des maschinellen Lernens (ML) hervorgerufen. Diese Agenten, die in der Lage sind, eigenständig Ideen zu entwickeln und ML-Experimente durchzuführen, versprechen eine Maximierung der Forschungsautomatisierung und eine Beschleunigung des wissenschaftlichen Fortschritts durch die iterative Verfeinerung von Ideen basierend auf experimentellen Ergebnissen. Die umfassende Bewertung solcher Agenten stellt jedoch weiterhin eine Herausforderung dar. Bestehende Benchmarks neigen dazu, technische Aspekte zu stark zu betonen und die akademische Strenge zu vernachlässigen. Dies erschwert eine klare Einschätzung der wissenschaftlichen Fähigkeiten eines Agenten in der ML-Forschung. Hinzu kommen Einschränkungen in der Aufgabenvielfalt, eine Überbetonung anwendungsorientierter Aufgaben gegenüber grundlegenden Forschungsproblemen und eine begrenzte Skalierbarkeit auf realistische Forschungsumgebungen.

Die Einführung von FML-bench als umfassender Bewertungsrahmen

Um diese Limitationen zu adressieren, wurde FML-bench entwickelt, ein Benchmark, der die Bewertung automatischer ML-Forschungsagenten anhand von acht diversen und grundlegenden ML-Forschungsproblemen ermöglicht. Dieser Benchmark wurde konzipiert, um den Kodieraufwand zu reduzieren, grundlegende Probleme statt spezifischer Anwendungsfälle zu betonen, eine hohe Aufgabenvielfalt zu bieten und auf reale ML-GitHub-Repositories erweiterbar zu sein.

Designprinzipien und Methodologie von FML-bench

FML-bench ist auf mehreren zentralen Designprinzipien aufgebaut, die eine realitätsnahe und umfassende Bewertung gewährleisten sollen:

Grundlegende ML-Probleme: Die Aufgaben konzentrieren sich auf Kernherausforderungen wie Repräsentationslernen, Generalisierung und Datenökonomie, anstatt auf spezifische Anwendungsfälle. Beispiele hierfür sind die Verbesserung der Out-of-Domain-Genauigkeit bei Generalisierungsproblemen oder die Reduzierung von Membership-Inference-Angriffen im Bereich des Datenschutzes.
Realweltliche Codebasen: Die Aufgaben nutzen existierende Forschungs-Repositories, was von den Agenten verlangt, bestehenden Code anzupassen und zu erweitern.
Erweiterbarkeit: Der Benchmark ist so konzipiert, dass neue ML-GitHub-Repositories, die ein End-to-End-Training und eine Bewertung unterstützen, mit minimalem Anpassungsaufwand integriert werden können.
Geringe Einstiegshürde beim Kodieren: Agenten starten mit bereitgestellten Baselines, wodurch sie sich auf algorithmische und architektonische Fortschritte konzentrieren können, anstatt Codebasen von Grund auf neu zu erstellen.

Ein vereinheitlichtes Eingabe-Ausgabe-Interface wurde implementiert, um die Diversität der realweltlichen Repositories zu handhaben. Agenten erhalten strukturierte Eingaben, die Aufgabenbeschreibungen, vollständigen Repository-Code, vorgeschlagene modifizierbare Dateien, geschützte Dateien, Experimentbefehlslisten, Baseline-Leistung und Zielmetriken umfassen. Ein Post-Processing-Modul wandelt diverse Repository-Outputs in ein standardisiertes Format für eine konsistente Metrikextraktion um.

Das vereinheitlichte Bewertungsframework

Das Papier präsentiert ein vereinheitlichtes Optimierungsframework für Agenten, die in iterativen Verfeinerungszyklen arbeiten. Ziel ist es, eine Zielfunktion zu maximieren, die verschiedene Aspekte der Agentenleistung berücksichtigt:

$$ \max_{T, {q_t, m_t}_{t=1}^T} \sum_{t=1}^T [U_t + \lambda A_t - \eta P_t] + \gamma S(M, C_1) + \beta D(H) $$

Hierbei sind die Schlüsselkomponenten:

$T$: Gesamtanzahl der Iterationen.
$H = {h_1, \ldots, h_T}$: Menge der generierten Hypothesen.
$M = {m_1, \ldots, m_T}$: Menge der konkreten Code-Modifikationen.
$q_t$: Vorschlagsverteilung für Hypothese $h_t$ in Iteration $t$.
$U_t$: Erwarteter Nutzen, der die empirische Leistungsverbesserung misst.
$A_t$: Akademische Beitragsrate, die den Anteil akademischer/algorithmischer Beiträge (z. B. neue Architekturen) im Vergleich zu technischen Modifikationen (z. B. Hyperparameter-Tuning) quantifiziert.
$P_t$: Kosten, einschließlich Rechenzeit und API-Nutzung.
$S(M, C_1)$: Schritt-Erfolgsrate, die die Zuverlässigkeit der Code-Modifikationen erfasst, d.h. den Anteil der fehlerfreien Läufe.
$D(H)$: Diversität, die die Vielfalt der vorgeschlagenen Hypothesen quantifiziert.
$\lambda, \eta, \gamma, \beta$: Hyperparameter zur Gewichtung der Ziele.

Effektive Agenten sollten zudem Designprinzipien erfüllen, die eine Explorationsbreite, algorithmische Innovation, zuverlässige Ausführung und die Einhaltung von Rechenbudgets sicherstellen.

Experimentelle Ergebnisse und zentrale Erkenntnisse

Im Rahmen der Studie wurden drei fortschrittliche automatische Forschungsagenten auf FML-bench evaluiert:

TheAIScientist: Dieser Agent verwendet eine breite, parallele Explorationsstrategie.
AIDE: Dieser Agent nutzt eine hierarchische, baumbasierte Suchstrategie, die Breite und Tiefe ausbalanciert.
Claude Code: Dieser Agent verfolgt eine lineare Verfeinerungsstrategie, die sich auf eine schmale, aber tiefe Exploration konzentriert.

Diese Agenten wurden mit führenden Large Language Models (LLMs) integriert: GPT-5 und Gemini-2.5-Pro für TheAIScientist und AIDE, sowie Opus-4.1 für Claude Code. Jeder Agent erhielt ein Budget von 100 Iterationen über drei unabhängige Runden.

Die zentralen Ergebnisse der Evaluation sind:

Breite Exploration übertrifft Tiefe: TheAIScientist mit Gemini-2.5-Pro erzielte die beste Gesamtleistung (Platz eins in 4 von 8 Aufgaben), gefolgt von TheAIScientist mit GPT-5 (2 von 8 Aufgaben). Dies deutet darauf hin, dass eine breitere Exploration verschiedener Ideen effektiver ist, um leistungsstarke Lösungen zu finden, als die iterative Verfeinerung eines einzelnen Gedankengangs. Eine positive Korrelation zwischen Ideenvielfalt und Leistungsverbesserung wurde insbesondere in den Bereichen Continual Learning (r=0.96), Fairness & Bias (r=0.86) und Generalisierung (r=0.72) beobachtet.
LLM-Leistung: Gemini-2.5-Pro übertraf im Allgemeinen GPT-5 innerhalb desselben Agenten-Frameworks (TheAIScientist).
Akademischer Beitrag: TheAIScientist zeigte eine leicht höhere durchschnittliche akademische Beitragsrate (GPT-5: 0.83, G2.5-Pro: 0.78) im Vergleich zu AIDE (GPT-5: 0.84, G2.5-Pro: 0.65) und deutlich höher als Claude Code (0.25). Dies deutet darauf hin, dass die Modifikationen von TheAIScientist stärker methodologischen Fortschritten entsprechen.
Effizienz und Zuverlässigkeit: Spezielle ML-Forschungsagenten (TheAIScientist, AIDE) waren token-effizienter als Allzweckagenten wie Claude Code. Claude Code litt häufig unter vorzeitiger Beendigung, was zu einer niedrigen Schritt-Abschlussrate (0.07) führte. Auch AIDE hatte Probleme (SCR 0.79). TheAIScientist zeigte eine perfekte Schritt-Abschlussrate (1.00). AIDE generierte manchmal "flache Bearbeitungen", die sich nicht in die Codebasis integrieren ließen und somit keine funktionale Verbesserung bewirkten.

Fazit und Ausblick

Die Studie kommt zu dem Schluss, dass FML-bench eine robuste Grundlage für die Bewertung von Forschungsagenten bietet. Die Ergebnisse unterstreichen, dass die Priorisierung der Breite der Forschungsexploration entscheidend ist, um effektivere und generalisierbarere Ergebnisse in der automatischen ML-Forschung zu erzielen. Diese Erkenntnisse sind für die Weiterentwicklung von KI-gestützten Forschungstools von Bedeutung und könnten die Entwicklung zukünftiger autonomer ML-Agenten maßgeblich beeinflussen.

Bibliographie

- Zou, Q., Lam, H. H., Zhao, W., Tang, Y., Chen, T., Yu, S., ... & Liu, D. (2025). FML-bench: A Benchmark for Automatic ML Research Agents Highlighting the Importance of Exploration Breadth. arXiv preprint arXiv:2510.10472. - Hugging Face. (2025). FML-bench: A Benchmark for Automatic ML Research Agents.... Verfügbar unter: https://huggingface.co/papers/2510.10472 - TheMoonlight.io. (2025). [Literature Review] FML-bench: A Benchmark for Automatic ML Research Agents Highlighting the Importance of Exploration Breadth. Verfügbar unter: https://www.themoonlight.io/en/review/fml-bench-a-benchmark-for-automatic-ml-research-agents-highlighting-the-importance-of-exploration-breadth - Schmid, P. (2025). AI Agent Benchmark Compendium. Verfügbar unter: https://www.philschmid.de/benchmark-compedium