Neues Framework für selbstentwickelnde KI-Agenten verbessert Lernfähigkeit aus Erfahrungen

Kategorien:

No items found.

Freigegeben:

June 17, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

OPD-Evolver ist ein Framework für sich selbst entwickelnde KI-Agenten, das die Kompetenz in der Nutzung von Erfahrungen verbessern soll.
Es integriert eine "Slow-Fast Co-Evolution" mit "On-Policy Self-Distillation", um das Gedächtnismanagement und das politische Lernen über verschiedene Domänen hinweg zu optimieren.
Das Framework ermöglicht Agenten, Erfahrungen nicht nur zu speichern, sondern auch aktiv zu selektieren, zu nutzen, neues Wissen zu generieren und ein wachsendes Wissensrepositorium zu pflegen.
Im "Fast Loop" interagiert OPD-Evolver mit einer vierstufigen Gedächtnishierarchie für schnelle Anpassungen zur Laufzeit.
Im "Slow Loop" werden durch ergebnisgesteuerte Gedächtnisattribution und retrospektive Einsichten die erlernten Fähigkeiten in die Agentenpolitik destilliert.
OPD-Evolver zeigt signifikante Leistungssteigerungen gegenüber bestehenden Gedächtnissystemen und übertrifft auch größere Sprachmodelle in bestimmten Benchmarks.

Die Entwicklung intelligenter Agenten, die aus ihren eigenen Erfahrungen lernen und sich kontinuierlich verbessern können, stellt eine zentrale Herausforderung in der Forschung zu Künstlicher Intelligenz dar. Aktuelle Ansätze konzentrieren sich oft auf die Speicherung von Trajektorien, den Abruf von Reflexionen oder die Akkumulation von Fähigkeiten. Es fehlt jedoch häufig an einer ganzheitlichen Kompetenz, nützliche Erfahrungen auszuwählen, diese aktiv zu nutzen, wiederverwendbares Wissen zu generieren und ein wachsendes Wissensrepositorium zu pflegen. In diesem Kontext wurde ein neues Framework namens OPD-Evolver vorgestellt, das sich selbst entwickelnde Agenten durch eine Kombination aus "Slow-Fast Co-Evolution" und "On-Policy Self-Distillation" kultiviert.

Die Herausforderung: Ganzheitliches Lernen aus Erfahrung

Große Sprachmodelle (LLMs) zeigen eine beeindruckende Leistungsfähigkeit, insbesondere im Bereich der Werkzeugnutzung. Dennoch mangelt es ihnen oft an der Fähigkeit, systematisch aus ihren eigenen Erfahrungen zu lernen. Bestehende Frameworks fokussieren sich primär auf die Schließung externer Wissenslücken, adressieren jedoch nicht die grundlegende Limitation, Problemlösungsstrategien iterativ zu verfeinern. Ein zentrales Problem ist, dass das Speichern von Erfahrungen nicht gleichbedeutend mit dem Lernen aus diesen Erfahrungen ist. Ein wirklich sich selbst entwickelnder Agent muss in der Lage sein, über bloßes Speichern hinauszugehen und eine aktive Rolle im Management und der Nutzung seines Wissens zu übernehmen.

OPD-Evolver: Ein Framework für evolutionäre Agenten

OPD-Evolver ist ein Framework, das darauf abzielt, diese Lücke zu schließen. Es ermöglicht Agenten, eine umfassende Kompetenz in der Erfahrungspflege zu entwickeln. Dies umfasst die Fähigkeit, Erfahrungen zu lesen, zu nutzen, neues Wissen zu schreiben und ein dynamisches Gedächtnisrepositorium zu pflegen. Das Herzstück des Frameworks ist ein "Slow-Fast Co-Evolution"-Ansatz, der mit "On-Policy Self-Distillation" kombiniert wird.

Der Fast Loop: Interaktion und schnelle Anpassung

Im "Fast Loop" interagiert der OPD-Evolver mit einer vierstufigen Gedächtnishierarchie. Diese Hierarchie ist darauf ausgelegt, Erfahrungen effizient zu verwalten und für schnelle Anpassungen zur Laufzeit zu nutzen. Die vierstufige Struktur ermöglicht es dem Agenten, relevante Informationen schnell abzurufen und in seine aktuellen Entscheidungen einfließen zu lassen. Dies ist entscheidend für die reaktionsschnelle Evolution des Agenten in dynamischen Umgebungen.

Der Slow Loop: Destillation und tiefgehendes Lernen

Der "Slow Loop" des OPD-Evolvers dient der tiefergehenden Integration von Erfahrungen in die Agentenpolitik. Hierbei kommen zwei Schlüsselmechanismen zum Einsatz: die ergebnisgesteuerte Gedächtnisattribution und retrospektive Einsichten (privileged hindsight). Durch diese Prozesse werden die im Fast Loop gesammelten Fähigkeiten – das Lesen, Nutzen, Schreiben und Pflegen von Erfahrungen – in eine robuste und einsetzbare Politik destilliert. Die On-Policy Self-Distillation sorgt dabei dafür, dass der Agent aus seinen eigenen generierten Trajektorien lernt und die Fähigkeiten eines stärkeren "Lehrer"-Modells adaptiert, selbst wenn keine direkten Logits des Lehrers verfügbar sind.

On-Policy Distillation: Eine evolutionäre Perspektive

On-Policy Distillation (OPD) ist eine Technik, bei der ein Student-Modell auf Trajektorien trainiert wird, die es selbst generiert hat, und dabei Feedback von einem stärkeren Lehrer-Modell erhält. Dies unterscheidet sich von der Off-Policy Distillation, bei der auf vordefinierten Datensätzen trainiert wird, und von reinen Reinforcement-Learning-Ansätzen, die oft unter spärlicher Belohnungszuweisung leiden. OPD hat sich als effektiv erwiesen, um Fähigkeiten von leistungsfähigen Lehrer-Modellen auf kleinere Student-Modelle zu übertragen und deren Leistung signifikant zu verbessern.

Mechanismen und Herausforderungen der On-Policy Distillation

Die Dynamik und die Mechanismen der On-Policy Distillation sind Gegenstand intensiver Forschung. Es wurde festgestellt, dass der Erfolg von OPD von verschiedenen Bedingungen abhängt. Eine Herausforderung besteht darin, dass Standard-OPD oft direkten Zugriff auf die Token-Level-Logits des Lehrer-Modells benötigt, was die Nutzung proprietärer Modelle als Lehrer erschwert. Ansätze wie OmniOPD versuchen, dieses Problem zu umgehen, indem sie logit-freie On-Policy Distillation über spekulative Verifikation ermöglichen.

Weitere Forschung befasst sich mit der Optimierung des "Advantage Design" bei OPD, um eine stabilere und effektivere Übertragung von Fähigkeiten zu gewährleisten. OPD+ beispielsweise überdenkt das Design des Vorteils bei der On-Policy Distillation, um die Schätzung der Vorteile zu verbessern, die oft durch den Einsatz von Stop-Gradienten-Techniken in Frage gestellt wird.

Asymmetrische On-Policy Distillation (AOPD) adressiert strukturelle Schwächen herkömmlicher Advantage-gewichteter Policy-Gradienten, wie hohe Varianz, verschwindende Gradienten und Explorationsengpässe. AOPD ersetzt ineffektive negative Verstärkung durch lokalisierte Divergenz, um diese Probleme zu überwinden.

Leistungsfähigkeit und Implikationen

OPD-Evolver zeigt in Multi-Domain-Benchmarks signifikante Leistungsverbesserungen. Es übertrifft bestehende Gedächtnissysteme wie ReasoningBank um bis zu 11,5 % und trainingsbasierte Methoden wie Skill0 um etwa 5,8 %. Eine weitere Analyse deutet darauf hin, dass OPD-Evolver hochwertige Erfahrungen und das Gedächtnismanagement internalisiert. Dies ermöglicht es einer kleineren Version des Modells, dem OPD-Evolver-9B, mit deutlich größeren Modellen wie Qwen3.5-397B-A17B und Step-3.5-Flash zu konkurrieren.

Diese Ergebnisse deuten darauf hin, dass OPD-Evolver über die Fähigkeiten von Gedächtnis-augmentierten Agenten hinausgeht und einen Schritt in Richtung tatsächlich qualifizierter, sich selbst entwickelnder Agenten darstellt. Die Fähigkeit, aus Erfahrungen ganzheitlich zu lernen und sich kontinuierlich anzupassen, könnte weitreichende Implikationen für die Entwicklung autonomer KI-Systeme in verschiedenen Anwendungsbereichen haben.

Fazit

Das OPD-Evolver-Framework stellt einen bemerkenswerten Fortschritt in der Forschung zu sich selbst entwickelnden KI-Agenten dar. Durch die Kombination von "Slow-Fast Co-Evolution" und "On-Policy Self-Distillation" wird ein Mechanismus geschaffen, der Agenten befähigt, nicht nur Erfahrungen zu speichern, sondern auch aktiv und intelligent aus ihnen zu lernen. Die erzielten Leistungssteigerungen und die Fähigkeit, mit größeren Modellen zu konkurrieren, unterstreichen das Potenzial dieses Ansatzes. Für Unternehmen im B2B-Bereich, die sich mit der Implementierung und Optimierung von KI-Lösungen befassen, bieten solche Entwicklungen die Aussicht auf robustere, anpassungsfähigere und effizientere KI-Systeme.

Bibliographie

- Wu, R., Wang, X., Mei, J., Cai, P., Fu, D., Yang, C., Wen, L., Yang, X., Shen, Y., Wang, Y., & Shi, B. (2025). EvolveR: Self-Evolving LLM Agents through an Experience-Driven Lifecycle. OpenReview.net. - Gu, N. (2026). Co-Evolving Policy Distillation. Hugging Face Papers. - Li, Y., Zuo, Y., He, B., Zhang, J., Xiao, C., Qian, C., Yu, T., Gao, H., Yang, W., Liu, Z., & Ding, N. (2026). Rethinking On-Policy Distillation of Large Language Models: Phenomenology, Mechanism, and Recipe. arXiv. - Zhao, H., Chen, H., Lin, H., Winata, G. I., Yao, D., & Tang, W. (2026). OPD+: Rethinking the Advantage Design for On-Policy Distillation. arXiv. - Yang, W., Liu, W., Xie, R., Yang, K., Yang, S., & Lin, Y. (2026). Learning beyond Teacher: Generalized On-Policy Distillation with Reward Extrapolation. arXiv. - Song, M., & Zheng, M. (2026). A Survey of On-Policy Distillation for Large Language Models. arXiv. - Hou, W., Peng, S., Wang, W., Ruan, Z., Zhang, Y., Zhou, Z., Gao, M., Chen, Y., Wang, K., Yang, H., Zhang, C., Tian, Z., Hu, H., Yang, Y., & Wu, F. (2026). Uni-OPD: Unifying On-Policy Distillation with a Dual-Perspective Recipe. arXiv. - Zhou, Y., Zhang, L., Wu, Y., Wang, M., Peng, B., Liu, J., Fan, X., & Zhao, Z. (2026). OmniOPD: Logit-Free On-Policy Distillation via Speculative Verification. arXiv. - Jia, N., Yang, H., Ma, X., Lian, J., Zhang, S., Zhang, W., Zeng, K., Cai, X., & Sun, Z. (2026). Asymmetric On-Policy Distillation: Bridging Exploitation and Imitation at the Token Level. arXiv. - Zhang, G., Xu, X., Yue, Y., Su, Z., Zhou, W., Hu, X., & Yan, S. (2026). OPD-Evolver: Cultivating Holistic Agent Evolver via On-Policy Distillation. Hugging Face Papers. - chrisliu298. (2026). chrisliu298/awesome-on-policy-distillation. GitHub.