Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Entwicklung von KI-Agenten, die in der Lage sind, komplexe Aufgaben im Internet autonom zu lösen, stellt einen bedeutenden Fortschritt in der Künstlichen Intelligenz dar. Insbesondere Modelle, die auf großen Sprachmodellen (LLMs) basieren, zeigen vielversprechende Ansätze für die Informationsbeschaffung und die Interaktion mit Web-Umgebungen. Eine zentrale Herausforderung bei der Skalierung dieser Fähigkeiten auf langfristige und mehrstufige Aufgaben ist jedoch die effektive Verwaltung des Kontextes. Hier setzt die Forschung an AgentFold an, einem neuen Paradigma, das durch proaktives Kontextmanagement die Leistung von Web-Agenten signifikant verbessern soll.
Herkömmliche Ansätze für Web-Agenten, insbesondere solche, die auf dem ReAct-Framework basieren, neigen dazu, alle Interaktionen – also Gedanken, Aktionen und Beobachtungen – sequenziell im Kontext zu akkumulieren. Dies führt zu einer rapiden Zunahme der Kontextgröße und damit zur sogenannten "Kontext-Sättigung". Der Agent verliert in der Fülle irrelevanter oder redundanter Informationen den Überblick, was die Effizienz und Genauigkeit seiner Entscheidungen beeinträchtigt. Eine alternative Methode, die den gesamten Verlauf bei jedem Schritt zusammenfasst, birgt das Risiko eines irreversiblen Verlusts kritischer Details, die für die erfolgreiche Aufgabenlösung unerlässlich sein könnten.
Die Autoren von AgentFold schlagen vor, dass die Lösung in einem dynamischen Ansatz liegt, der von der menschlichen kognitiven Fähigkeit zur retrospektiven Konsolidierung inspiriert ist. Menschen verwalten ihre Erinnerungen nicht als passive Protokolle, sondern als einen aktiven Arbeitsbereich, in dem Informationen selektiv behalten, abstrahiert oder verworfen werden. AgentFold überträgt dieses Prinzip auf KI-Agenten.
AgentFold definiert den Kontext als einen "dynamischen kognitiven Arbeitsbereich", der aktiv vom Agenten gestaltet wird. Anstatt Informationen lediglich anzuhängen, führt der Agent bei jedem Schritt eine "Faltungsoperation" durch. Diese Operation ermöglicht es, den historischen Verlauf auf mehreren Ebenen zu verwalten:
Diese selektive Vorgehensweise soll verhindern, dass der Kontext überladen wird, während gleichzeitig wichtige Informationen erhalten bleiben. Das Ziel ist es, eine Balance zwischen der Beibehaltung von Details und der Notwendigkeit einer prägnanten Darstellung zu finden.
Die Architektur von AgentFold gliedert den Kontext in vier Hauptkomponenten:
Bei jedem Schritt generiert AgentFold eine mehrteilige Antwort, die einen Gedanken, eine Faltungsdirektive, eine Erklärung und eine Aktion umfasst. Die Faltungsdirektive ist entscheidend. Sie ist als JSON-Objekt formuliert und weist das System an, wie der Kontext zu aktualisieren ist. Dies kann entweder eine granulare Kondensation des letzten Schritts oder eine tiefe Konsolidierung eines längeren Abschnitts der Historie sein. Dieser operative Zyklus "wahrnehmen -> denken -> falten -> handeln" integriert die Kontextpflege explizit in den Denkprozess des Agenten.
Ein wesentlicher Aspekt der Entwicklung von AgentFold war die Generierung von Trainingsdaten, die nicht nur korrekte Aktionen, sondern auch intelligentes, strategisches Kontextmanagement abbilden. Hierfür wurde ein spezieller "Fold-Generator" entwickelt. Dieser Prozess nutzt vorhandene Benchmarks und fortgeschrittene LLMs, um Trajektorien zu simulieren, die sowohl die Schlussfolgerungen als auch die Faltungsentscheidungen des Agenten enthalten. Eine Ablehnungs-Sampling-Methode filtert dabei ungültige oder fehlerhafte Generierungen heraus, um eine hohe Datenqualität sicherzustellen.
Das resultierende Dataset wird dann für das überwachte Fine-Tuning (SFT) des Basismodells (Qwen3-30B-A3B) verwendet. Dieser Ansatz ermöglicht es dem Modell, das Faltungsverhalten als robuste, internalisierte Fähigkeit zu erlernen, anstatt es lediglich durch fragile Prompt-Anweisungen zu steuern. Die Verwendung von SFT bietet zudem den Vorteil der Effizienz, da es die Notwendigkeit einer teuren Echtzeit-Generierung und -Filterung vermeidet.
Die Evaluierung von AgentFold-30B-A3B auf verschiedenen Benchmarks, darunter BrowseComp, BrowseComp-ZH, WideSearch-en und der Text-Untermenge von GAIA, zeigt bemerkenswerte Ergebnisse. Das Modell erzielt beispielsweise 36,2 % bei BrowseComp und 47,3 % bei BrowseComp-ZH. Diese Werte übertreffen oder erreichen die Leistung von Open-Source-Modellen, die ein Vielfaches größer sind (z.B. DeepSeek-V3.1-671B-A37B), und liegen teilweise sogar über der von führenden proprietären Agenten wie OpenAI's o4-mini.
Ein entscheidender Faktor für diese Leistung ist die Fähigkeit von AgentFold, den Kontext kompakt zu halten. Die durchschnittliche Token-Anzahl wächst sublinear, erreicht nach 100 Schritten nur etwa 7.000 Token und bleibt selbst nach 500 Schritten meist unter 20.000 Token. Im Vergleich dazu würde ein ReAct-basierter Agent bei 100 Schritten über 90.000 Token akkumulieren. Diese Effizienz führt zu erheblichen Speichereinsparungen (ca. 7 GB pro Inferenzinstanz bei 100 Schritten) und ermöglicht es dem Agenten, über hunderte von Schritten hinweg stabil und präzise zu operieren.
Erweiterte Experimente zeigen, dass die Genauigkeit von AgentFold mit zunehmender Anzahl von Interaktionen (bis zu 256 Schritte) weiter ansteigt, während andere Modelle bei etwa 64 Schritten an ihre Grenzen stoßen. Dies unterstreicht die Robustheit des proaktiven Kontextmanagements für langfristige Aufgabenstellungen.
Die Fähigkeiten von AgentFold eröffnen eine Reihe von potenziellen Anwendungsbereichen für Unternehmen, insbesondere in Szenarien, die eine umfangreiche und iterative Web-Exploration erfordern:
Die effiziente Kontextnutzung von AgentFold führt zu signifikanten Einsparungen bei Rechenleistung und Speicherplatz. Dies ermöglicht den Einsatz kleinerer Modelle, die durch besseres Kontextmanagement mit deutlich größeren Modellen konkurrieren können.
Trotz der beeindruckenden Ergebnisse gibt es auch Einschränkungen. Das aktuelle Training basiert ausschließlich auf überwachtem Fine-Tuning. Die Autoren sehen jedoch im Reinforcement Learning (RL) einen vielversprechenden Weg, um optimale, nicht offensichtliche Faltungsstrategien zu entdecken. Zudem könnten falsche tiefe Konsolidierungen, bei denen wichtige Details irrtümlich entfernt werden, ein Risiko darstellen, was eine sorgfältige Modellabstimmung und möglicherweise Schutzmechanismen erfordert.
Die Forschung an AgentFold ist ein weiteres Beispiel dafür, wie innovative Ansätze im Kontextmanagement die Leistungsfähigkeit von KI-Agenten maßgeblich beeinflussen können. Durch die Nachahmung menschlicher kognitiver Prozesse eröffnet sich das Potenzial, komplexere und längerfristige Aufgaben mit höherer Effizienz und Genauigkeit zu bewältigen. Die Fortschritte in diesem Bereich sind von hoher Relevanz für Unternehmen, die autonome KI-Lösungen in ihre Geschäftsprozesse integrieren möchten.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen