Jetzt reinschauen – neue Umgebung live

Open-Source-Projekt von Hugging Face erreicht Fortschritte bei der Replikation von OpenAIs Deep Research

Kategorien:
No items found.
Freigegeben:
February 10, 2025

Artikel jetzt als Podcast anhören

Open-Source-Initiative repliziert OpenAIs Deep Research

In einem ambitionierten 24-Stunden-Hackathon ist es einem Team von Hugging Face gelungen, eine Open-Source-Version von OpenAIs Deep Research zu entwickeln. Deep Research ist ein KI-Agent, der komplexe Recherchen durchführen und Informationen aus verschiedenen Quellen zusammenfassen kann. Das Ziel des Projekts, angeführt von Hugging Face Chefwissenschaftler Thomas Wolf, ist es, die Funktionalitäten dieser proprietären Technologie für die breite Öffentlichkeit zugänglich zu machen.

Ein Code-Agent für effizientere Recherche

Ein zentraler Unterschied zwischen dem Open-Source-Ansatz von Hugging Face und dem Original von OpenAI liegt in der Art und Weise, wie der Agent Aktionen ausführt. Anstatt JSON für die einzelnen Schritte zu verwenden, setzt das Hugging Face Team auf einen sogenannten Code-Agenten. Dieser kann Programmiercode direkt ausführen, was die Anzahl der Verarbeitungsschritte um etwa 30 Prozent reduziert. Dadurch sinken die Kosten und die Performance im Vergleich zu herkömmlichen Sprachmodellen verbessert sich. Ein Beispiel: Um den Preis eines Smartphones in verschiedenen Ländern zu berechnen, benötigt die JSON-basierte Lösung separate Aktionen für jeden Schritt (Wechselkurs abrufen, Preis nachschlagen, Steuern berechnen). Der Code-Agent hingegen kann die gesamte Berechnung in einer einzigen Schleife durchführen.

Für die Implementierung des Systems griff das Team auf zwei Schlüsselkomponenten aus Microsofts Magentic-One-Agent-Framework zurück: einen textbasierten Webbrowser für die Recherche und einen Textinspektor, der verschiedene Dateiformate lesen kann.

Test der Forschungsfähigkeiten mit GAIA

Um die Leistungsfähigkeit ihres Systems zu bewerten, nutzte das Team den GAIA-Benchmark. Dieser Test prüft, wie KI-Agenten komplexe Rechercheaufgaben bewältigen. Eine Beispielaufgabe lautet: "Welche der Früchte, die in dem Gemälde 'Stickerei aus Usbekistan' von 2008 abgebildet sind, wurden im Oktober 1949 zum Frühstück auf dem Ozeandampfer serviert, der später als schwimmende Kulisse für den Film 'Die letzte Fahrt' diente? Nennen Sie die Früchte als kommagetrennte Liste, sortiert im Uhrzeigersinn nach ihrer Anordnung im Gemälde, beginnend bei der 12-Uhr-Position. Verwenden Sie die Pluralform der Früchte."

Zur Lösung dieses Rätsels muss der KI-Agent folgende Schritte durchführen:

Die Früchte im Gemälde mithilfe von Bildverarbeitung identifizieren Ermitteln, welcher Ozeandampfer im Film vorkommt Das Frühstücksmenü des Schiffes von 1949 finden Die Informationen im geforderten Format präsentieren

Das System von Hugging Face erreichte bei diesen mehrstufigen Herausforderungen eine Erfolgsquote von 55,15 Prozent. Das ist besser als die 46 Prozent von Microsofts Magentic-One, liegt aber immer noch hinter den 67 Prozent von OpenAIs Deep Research.

Herausforderungen und zukünftige Entwicklungen

Das Team von Hugging Face räumt ein, dass noch weitere Arbeit nötig ist, um die Leistung von OpenAIs Deep Research zu erreichen, insbesondere bei der Verbesserung der Browser-Interaktionen. Ein wesentlicher Unterschied besteht darin, dass Hugging Face auf verfügbare Open-Source-Sprachmodelle zurückgreift, während OpenAI sein eigenes Modell o3 verwendet, das speziell für Webaufgaben mittels Reinforcement Learning trainiert wurde.

Dennoch deuten die Ergebnisse von Hugging Face im GAIA-Benchmark, die kurz nach der Veröffentlichung von OpenAIs Deep Research erzielt wurden, darauf hin, dass sich die Lücke zwischen Open-Source- und proprietärer KI möglicherweise schneller schließt als erwartet. Dies ist ein weiterer Hinweis darauf, dass proprietäre KI möglicherweise nicht das stärkste Geschäftsmodell darstellt.

Der nächste Schritt für das Team ist die Entwicklung von GUI-Agenten, die direkt mit Bildschirmen, Mäusen und Tastaturen interagieren können. Der Code ist auf GitHub verfügbar, und eine Live-Demo kann online eingesehen werden. Auch andere Entwickler haben eigene Open-Source-Versionen erstellt. Hugging Face plant, diese verschiedenen Ansätze zu analysieren und zu dokumentieren.

Quellen: - https://huggingface.co/blog/open-deep-research - https://the-decoder.com/hugging-face-works-to-replicate-openais-deep-research-capabilities-with-open-source-ai-agent/ - https://arstechnica.com/ai/2025/02/after-24-hour-hackathon-hugging-faces-ai-research-agent-nearly-matches-openais-solution/ - https://huggingface.co/blog/open-r1 - https://www.tomsguide.com/ai/chatgpts-powerful-deep-research-upgrade-got-an-open-source-replica-in-just-24-hours - https://www.neowin.net/news/hugging-face-makes-big-progress-on-open-source-deep-research-rival/ - https://huggingface.co/posts/m-ric/410805194640777 - https://medium.com/@fahey_james/openais-deep-research-the-ai-agent-that-can-compile-detailed-reports-in-minutes-cd4009a928ef - https://techcrunch.com/2025/02/04/hugging-face-researchers-aim-to-build-an-open-version-of-openais-deep-research-tool/ - https://medial.app/news/hugging-face-clones-openais-deep-research-in-24-hours-8d12184a1bb70
Was bedeutet das?

Wie können wir Ihnen heute helfen?

Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.