Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Entwicklung von Large Language Models (LLMs) hat in den letzten Jahren erhebliche Fortschritte gemacht. Doch während statische Benchmarks oft die Leistungsfähigkeit dieser Modelle in isolierten Aufgaben gut abbilden, stellt die Bewertung von LLM-Agenten in realitätsnahen, dynamischen und asynchronen Umgebungen eine größere Herausforderung dar. Hier setzt Gaia2 an, ein neuer Benchmark, der in Zusammenarbeit mit Meta AI entwickelt wurde, um genau diese Lücke zu schließen. Er bietet eine umfassende Plattform zur Evaluierung von Agentensystemen unter Bedingungen, die den Anforderungen der realen Welt näherkommen.
Bisherige Evaluationsmethoden für LLM-Agenten konzentrierten sich häufig auf statische oder synchrone Aufgaben. In solchen Szenarien pausiert die Umgebung, während der Agent agiert, und es treten keine unvorhergesehenen Ereignisse auf. Die Realität ist jedoch anders: In vielen Anwendungen müssen Agenten in Umgebungen operieren, die sich unabhängig von ihren Aktionen entwickeln, auf zeitliche Beschränkungen reagieren, mit unsicheren Informationen umgehen und sogar mit anderen Agenten zusammenarbeiten. Diese komplexen Anforderungen erfordern eine neue Generation von Benchmarks, die diese Dynamik abbilden können.
Gaia2 ist der Nachfolger des ursprünglichen GAIA-Benchmarks und wurde entwickelt, um deutlich komplexere Verhaltensweisen zu analysieren. Im Gegensatz zu GAIA, der sich auf Leseoperationen konzentrierte, ist Gaia2 ein Lese- und Schreib-Benchmark, der interaktives Verhalten und die Bewältigung von Komplexität in den Vordergrund stellt. Die Grundlage für Gaia2 bildet die Open-Source-Plattform Agents Research Environments (ARE). ARE ist eine Forschungsumgebung, die die skalierbare Erstellung von Umgebungen, die Integration synthetischer oder realer Anwendungen und die Ausführung von Agentenorchestrationen ermöglicht. Sie bietet Abstraktionen, um komplexe und vielfältige Umgebungen mit eigenen Regeln, Tools, Inhalten und Verifizierern aufzubauen, was dazu beiträgt, die Lücke zwischen Modellentwicklung und realer Bereitstellung zu überbrücken.
Gaia2 besteht aus 1.120 von Menschen annotierten Szenarien in einer Smartphone-ähnlichen Umgebung, genannt "Mobile". Diese Umgebung simuliert den Alltag eines Menschen und umfasst Anwendungen wie E-Mail, Messaging, Kalender und Kontakte. Die Szenarien sind darauf ausgelegt, folgende Agentenfähigkeiten zu testen:
Ein zentrales Element von Gaia2 ist der Write-Action Verifier. Dieser Verifizierer bewertet jede zustandsändernde Schreibaktion eines Agenten anhand von Oracle-Annotationen, um Konsistenz, Kausalität, Timing und korrekte Ausführung auf Aktionsebene zu überprüfen. Dies ermöglicht eine feingranulare Bewertung und macht Gaia2 direkt für Reinforcement Learning aus verifizierbaren Belohnungen (RLVR) nutzbar.
Eine Evaluierung führender proprietärer und Open-Source-Modelle auf Gaia2 lieferte interessante Einblicke. Es zeigte sich, dass kein einzelnes Modell über alle Fähigkeiten hinweg dominiert. Beispielsweise erreichte GPT-5 (high) mit 42% pass@1 die höchste Gesamtpunktzahl, scheiterte jedoch bei zeitkritischen Aufgaben. Claude-4 Sonnet zeigte einen Kompromiss zwischen Genauigkeit und Geschwindigkeit im Verhältnis zu den Kosten, während Kimi-K2 mit 21% pass@1 führend unter den Open-Source-Modellen war.
Diese Ergebnisse unterstreichen fundamentale Kompromisse zwischen Denkfähigkeit, Effizienz und Robustheit. Insbesondere die Kategorie "Zeit" erwies sich als besonders herausfordernd. Modelle, die bei komplexen Denkaufgaben hervorragend abschneiden, zeigen bei zeitkritischen Szenarien oft eine schlechtere Leistung, da ihre längeren Inferenzzeiten zu Verzögerungen führen können. Dies deutet darauf hin, dass "Intelligenz" nicht nur Genauigkeit, sondern auch Effizienz umfassen muss – ein intelligenter Agent sollte in der Lage sein, seine Rechenleistung an die Komplexität der Aufgabe anzupassen.
Die Veröffentlichung von Gaia2 zusammen mit dem ARE-Framework zielt darauf ab, der Forschungsgemeinschaft eine flexible Infrastruktur für die Entwicklung, das Benchmarking und das Training der nächsten Generation praktischer Agentensysteme zur Verfügung zu stellen. ARE bietet eine graphische Benutzeroberfläche (GUI), die es Entwicklern ermöglicht, Umgebungen zu erkunden, Szenarien zu visualisieren und das Verhalten von Agenten detailliert zu analysieren und zu debuggen. Dies vereinfacht nicht nur die Szenarienerstellung und -qualitätskontrolle, sondern fördert auch die Reproduzierbarkeit und Vergleichbarkeit von Forschungsergebnissen.
Darüber hinaus unterstützt ARE die Erstellung neuer Evaluationsdimensionen durch die Anwendung verschiedener Umweltmodifikationen auf bestehende Szenarien. Dies ermöglicht die Erforschung von Fähigkeiten wie Gedächtnis, Sicherheit oder Schutz, ohne den erheblichen Aufwand für die Erstellung völlig neuer Benchmark-Datensätze. Die Plattform ist zudem so konzipiert, dass bestehende Agenten-Benchmarks in ARE repliziert werden können, was eine Vereinheitlichung der Evaluationslandschaft fördert.
Gaia2 und ARE stellen einen wichtigen Schritt dar, um die Entwicklung von LLM-Agenten in Richtung realitätsnaher Anwendungen voranzutreiben. Die Erkenntnisse aus diesem Benchmark zeigen deutlich, dass die Bewertung von Agenten über reine Such- und Ausführungsaufgaben hinausgehen muss, um die Herausforderungen dynamischer, asynchroner Umgebungen zu meistern. Die bereitgestellte Open-Source-Infrastruktur ermöglicht es der Gemeinschaft, diese Herausforderungen gemeinsam anzugehen und die nächste Generation von intelligenten Agentensystemen zu entwickeln, die in der Lage sind, in der komplexen und sich ständig ändernden realen Welt erfolgreich zu agieren.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen