Neuer Ansatz zur Verbesserung der Effizienz von KI-Agenten durch proaktives Kontextmanagement

Kategorien:

No items found.

Freigegeben:

October 31, 2025

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Die Effizienz von KI-Agenten bei komplexen Web-Aufgaben wird durch die Kontextverwaltung beeinflusst.
AgentFold ist ein neues Paradigma, das proaktives Kontextmanagement durch "Faltung" implementiert, inspiriert von menschlichen kognitiven Prozessen.
Es nutzt einen dynamischen kognitiven Arbeitsbereich, um historische Informationen gezielt zu verdichten oder zu abstrahieren.
AgentFold-30B-A3B erreicht bei Benchmarks wie BrowseComp und BrowseComp-ZH hohe Werte und übertrifft teils deutlich größere Modelle.
Das Modell wurde mittels überwachtem Fine-Tuning trainiert und zeigt eine sublineare Kontextwachstumsrate, was zu erheblichen Ressourceneinsparungen führt.
Die Architektur ermöglicht eine präzise Informationserhaltung bei gleichzeitiger Vermeidung von Kontextüberflutung.

Revolution in der Kontextverwaltung von Web-Agenten: Eine Analyse von AgentFold

Die Entwicklung von KI-Agenten, die in der Lage sind, komplexe Aufgaben im Internet autonom zu lösen, stellt einen bedeutenden Fortschritt in der Künstlichen Intelligenz dar. Insbesondere Modelle, die auf großen Sprachmodellen (LLMs) basieren, zeigen vielversprechende Ansätze für die Informationsbeschaffung und die Interaktion mit Web-Umgebungen. Eine zentrale Herausforderung bei der Skalierung dieser Fähigkeiten auf langfristige und mehrstufige Aufgaben ist jedoch die effektive Verwaltung des Kontextes. Hier setzt die Forschung an AgentFold an, einem neuen Paradigma, das durch proaktives Kontextmanagement die Leistung von Web-Agenten signifikant verbessern soll.

Die Herausforderung des Kontextmanagements bei Web-Agenten

Herkömmliche Ansätze für Web-Agenten, insbesondere solche, die auf dem ReAct-Framework basieren, neigen dazu, alle Interaktionen – also Gedanken, Aktionen und Beobachtungen – sequenziell im Kontext zu akkumulieren. Dies führt zu einer rapiden Zunahme der Kontextgröße und damit zur sogenannten "Kontext-Sättigung". Der Agent verliert in der Fülle irrelevanter oder redundanter Informationen den Überblick, was die Effizienz und Genauigkeit seiner Entscheidungen beeinträchtigt. Eine alternative Methode, die den gesamten Verlauf bei jedem Schritt zusammenfasst, birgt das Risiko eines irreversiblen Verlusts kritischer Details, die für die erfolgreiche Aufgabenlösung unerlässlich sein könnten.

Die Autoren von AgentFold schlagen vor, dass die Lösung in einem dynamischen Ansatz liegt, der von der menschlichen kognitiven Fähigkeit zur retrospektiven Konsolidierung inspiriert ist. Menschen verwalten ihre Erinnerungen nicht als passive Protokolle, sondern als einen aktiven Arbeitsbereich, in dem Informationen selektiv behalten, abstrahiert oder verworfen werden. AgentFold überträgt dieses Prinzip auf KI-Agenten.

AgentFold: Ein Paradigma des proaktiven Kontextmanagements

AgentFold definiert den Kontext als einen "dynamischen kognitiven Arbeitsbereich", der aktiv vom Agenten gestaltet wird. Anstatt Informationen lediglich anzuhängen, führt der Agent bei jedem Schritt eine "Faltungsoperation" durch. Diese Operation ermöglicht es, den historischen Verlauf auf mehreren Ebenen zu verwalten:

Granulare Kondensation: Hierbei werden spezifische, feinkörnige Details bewahrt, die für die aktuelle Aufgabe von Bedeutung sind.
Tiefe Konsolidierung: Ganze mehrstufige Unteraufgaben können abstrahiert und zu einer übergeordneten Erkenntnis zusammengefasst werden, insbesondere wenn die Zwischenschritte nicht mehr direkt relevant sind oder eine Sackgasse erkannt wurde.

Diese selektive Vorgehensweise soll verhindern, dass der Kontext überladen wird, während gleichzeitig wichtige Informationen erhalten bleiben. Das Ziel ist es, eine Balance zwischen der Beibehaltung von Details und der Notwendigkeit einer prägnanten Darstellung zu finden.

Architektur und Funktionsweise

Die Architektur von AgentFold gliedert den Kontext in vier Hauptkomponenten:

Benutzerfrage: Das übergeordnete und stabile Ziel der Aufgabe.
Verfügbare Tools: Die Aktionen und Schemata, die dem Agenten zur Verfügung stehen.
Mehrskalige Zustandszusammenfassungen: Dies ist das Langzeitgedächtnis des Agenten, das aus gefalteten Blöcken unterschiedlicher Granularität besteht. Jeder Block repräsentiert eine Reihe von Schritten, die entweder feinkörnig zusammengefasst oder tief konsolidiert wurden.
Neueste Interaktion: Eine hochaufgelöste Aufzeichnung des letzten Schrittes (Erklärung, Aktion, Beobachtung), die unkomprimiert vorliegt und das Kurzzeitgedächtnis darstellt.

Bei jedem Schritt generiert AgentFold eine mehrteilige Antwort, die einen Gedanken, eine Faltungsdirektive, eine Erklärung und eine Aktion umfasst. Die Faltungsdirektive ist entscheidend. Sie ist als JSON-Objekt formuliert und weist das System an, wie der Kontext zu aktualisieren ist. Dies kann entweder eine granulare Kondensation des letzten Schritts oder eine tiefe Konsolidierung eines längeren Abschnitts der Historie sein. Dieser operative Zyklus "wahrnehmen -> denken -> falten -> handeln" integriert die Kontextpflege explizit in den Denkprozess des Agenten.

Trainingsmethode und Datengenerierung

Ein wesentlicher Aspekt der Entwicklung von AgentFold war die Generierung von Trainingsdaten, die nicht nur korrekte Aktionen, sondern auch intelligentes, strategisches Kontextmanagement abbilden. Hierfür wurde ein spezieller "Fold-Generator" entwickelt. Dieser Prozess nutzt vorhandene Benchmarks und fortgeschrittene LLMs, um Trajektorien zu simulieren, die sowohl die Schlussfolgerungen als auch die Faltungsentscheidungen des Agenten enthalten. Eine Ablehnungs-Sampling-Methode filtert dabei ungültige oder fehlerhafte Generierungen heraus, um eine hohe Datenqualität sicherzustellen.

Das resultierende Dataset wird dann für das überwachte Fine-Tuning (SFT) des Basismodells (Qwen3-30B-A3B) verwendet. Dieser Ansatz ermöglicht es dem Modell, das Faltungsverhalten als robuste, internalisierte Fähigkeit zu erlernen, anstatt es lediglich durch fragile Prompt-Anweisungen zu steuern. Die Verwendung von SFT bietet zudem den Vorteil der Effizienz, da es die Notwendigkeit einer teuren Echtzeit-Generierung und -Filterung vermeidet.

Leistung und Ergebnisse

Die Evaluierung von AgentFold-30B-A3B auf verschiedenen Benchmarks, darunter BrowseComp, BrowseComp-ZH, WideSearch-en und der Text-Untermenge von GAIA, zeigt bemerkenswerte Ergebnisse. Das Modell erzielt beispielsweise 36,2 % bei BrowseComp und 47,3 % bei BrowseComp-ZH. Diese Werte übertreffen oder erreichen die Leistung von Open-Source-Modellen, die ein Vielfaches größer sind (z.B. DeepSeek-V3.1-671B-A37B), und liegen teilweise sogar über der von führenden proprietären Agenten wie OpenAI's o4-mini.

Ein entscheidender Faktor für diese Leistung ist die Fähigkeit von AgentFold, den Kontext kompakt zu halten. Die durchschnittliche Token-Anzahl wächst sublinear, erreicht nach 100 Schritten nur etwa 7.000 Token und bleibt selbst nach 500 Schritten meist unter 20.000 Token. Im Vergleich dazu würde ein ReAct-basierter Agent bei 100 Schritten über 90.000 Token akkumulieren. Diese Effizienz führt zu erheblichen Speichereinsparungen (ca. 7 GB pro Inferenzinstanz bei 100 Schritten) und ermöglicht es dem Agenten, über hunderte von Schritten hinweg stabil und präzise zu operieren.

Erweiterte Experimente zeigen, dass die Genauigkeit von AgentFold mit zunehmender Anzahl von Interaktionen (bis zu 256 Schritte) weiter ansteigt, während andere Modelle bei etwa 64 Schritten an ihre Grenzen stoßen. Dies unterstreicht die Robustheit des proaktiven Kontextmanagements für langfristige Aufgabenstellungen.

Anwendungsbereiche und Implikationen für Unternehmen

Die Fähigkeiten von AgentFold eröffnen eine Reihe von potenziellen Anwendungsbereichen für Unternehmen, insbesondere in Szenarien, die eine umfangreiche und iterative Web-Exploration erfordern:

Automatisierung der Unternehmensrecherche: Für Wettbewerbsanalysen, Due Diligence oder die Überwachung von Vorschriften und Richtlinien, die eine tiefe, mehrstufige Informationssuche erfordern.
Wissensmanagement: Aufbau und Pflege kuratierter Wissensdatenbanken aus unstrukturierten Quellen, mit der Fähigkeit, Nachvollziehbarkeit durch mehrskalige Zusammenfassungen zu gewährleisten.
Kundenbetreuung und Fallbearbeitung: Die Bearbeitung komplexer, langwieriger Kundenanfragen, bei denen Beweismittel selektiv gespeichert und über mehrere Schritte hinweg eskaliert werden müssen.
Markt- und Produktanalyse: Multiquellenvalidierung, Hypothesentests und die iterative Eingrenzung von Produkt- oder Anbieterkandidaten.
Compliance und Audit: Überprüfung dokumentenintensiver Prozesse, die von tiefen Konsolidierungen und der Bewahrung feinkörniger Details profitieren, wenn diese kritisch sind.

Die effiziente Kontextnutzung von AgentFold führt zu signifikanten Einsparungen bei Rechenleistung und Speicherplatz. Dies ermöglicht den Einsatz kleinerer Modelle, die durch besseres Kontextmanagement mit deutlich größeren Modellen konkurrieren können.

Grenzen und zukünftige Entwicklungen

Trotz der beeindruckenden Ergebnisse gibt es auch Einschränkungen. Das aktuelle Training basiert ausschließlich auf überwachtem Fine-Tuning. Die Autoren sehen jedoch im Reinforcement Learning (RL) einen vielversprechenden Weg, um optimale, nicht offensichtliche Faltungsstrategien zu entdecken. Zudem könnten falsche tiefe Konsolidierungen, bei denen wichtige Details irrtümlich entfernt werden, ein Risiko darstellen, was eine sorgfältige Modellabstimmung und möglicherweise Schutzmechanismen erfordert.

Die Forschung an AgentFold ist ein weiteres Beispiel dafür, wie innovative Ansätze im Kontextmanagement die Leistungsfähigkeit von KI-Agenten maßgeblich beeinflussen können. Durch die Nachahmung menschlicher kognitiver Prozesse eröffnet sich das Potenzial, komplexere und längerfristige Aufgaben mit höherer Effizienz und Genauigkeit zu bewältigen. Die Fortschritte in diesem Bereich sind von hoher Relevanz für Unternehmen, die autonome KI-Lösungen in ihre Geschäftsprozesse integrieren möchten.

Bibliographie

- Ye, R., Zhang, Z., Li, K., Yin, H., Tao, Z., Zhao, Y., ... & Jiang, Y. (2025). AgentFold: Long-Horizon Web Agents with Proactive Context Management. arXiv preprint arXiv:2510.24699. - Bhakthan, S. (2025). AgentFold: Long-Horizon Web Agents with Proactive Context Management. Substack. - Greyling, C. (2025). Fundamentals Autonomous AI Agents. Medium. - Zhao, Y. (2025). Hugging Face Profile. Hugging Face.