Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Entwicklung von KI-Agenten, die in komplexen Umgebungen agieren und lernen können, stellt einen Schwerpunkt der aktuellen Forschung im Bereich des Reinforcement Learnings (RL) dar. Insbesondere die Fähigkeit von Sprachmodell-Agenten (LLM-Agenten), aus Erfahrungen zu lernen und erlernte Strategien wiederzuverwenden, ist von grossem Interesse. Ein aktueller Forschungsansatz, vorgestellt im Paper "Skill1: Unified Evolution of Skill-Augmented Agents via Reinforcement Learning", adressiert diese Herausforderung durch ein integriertes Framework, das die Entwicklung von Agentenfähigkeiten umfassend optimiert.
Herkömmliche RL-Trainingsmethoden behandeln jede Aufgabe oft als isolierte Episode. Erfolgreiche Strategien werden dabei implizit in die Parameter der Policy integriert, können aber nicht explizit für zukünftige Aufgaben wiederverwendet werden. Um dem entgegenzuwirken, werden Agenten oft mit einer persistenten Skill-Bibliothek ausgestattet, die wiederverwendbare Strategien aus vergangenen Erfahrungen sammelt. Der Workflow solcher Skill-augmentierter Agenten umfasst typischerweise drei Phasen:
Bestehende Methoden optimieren diese Fähigkeiten oft isoliert oder mit unterschiedlichen Belohnungsquellen, was zu einer fragmentierten und potenziell widersprüchlichen Evolution führen kann. Dies wirft zwei grundlegende Fragen auf: Wie können alle drei Fähigkeiten simultan entwickelt werden, und wie können sie sich auf ein gemeinsames Ziel hin ko-evolvieren?
Skill1 ist ein Framework, das eine einheitliche Evolution von Skill-augmentierten Agenten durch das Training einer einzigen Policy ermöglicht, die Skill-Auswahl, -Nutzung und -Destillation ko-evolviert. Das Kernprinzip liegt in der Nutzung eines einzigen, aufgabenergebnisbasierten Signals zur Kreditzuweisung. Dieses Signal wird in einen niederfrequenten Trend und eine hochfrequente Variation zerlegt, um jeder der drei Fähigkeiten ein spezifisches Lernsignal zu liefern.
Für jede neue Aufgabe durchläuft der Agent im Skill1-Framework die folgenden Schritte:
Alle Lernsignale werden dabei aus einem einzigen Task-Outcome-Signal ($r(\tau)$) abgeleitet. Der niederfrequente Trend dieses Signals wird für die Bewertung der Skill-Auswahl herangezogen, während die hochfrequente Variation die Destillation neuer, verbesserter Fähigkeiten belohnt.
Die Kreditzuweisung innerhalb von Skill1 erfolgt differenziert, obwohl sie auf einem einzigen Aufgabenergebnissignal basiert:
Diese Signale werden in einem gemeinsamen Optimierungsziel kombiniert, das auf Algorithmen wie GRPO (Group Relative Policy Optimization) basiert. Das ermöglicht eine gleichzeitige Verbesserung aller drei Aspekte des Agentenverhaltens.
Das Skill1-Framework wurde auf den Benchmarks ALFWorld und WebShop evaluiert. ALFWorld ist eine textbasierte Umgebung, die mehrstufige Planung und Objektinteraktion erfordert, während WebShop einen Online-Shopping-Simulator darstellt. Die Ergebnisse zeigen, dass Skill1 eine höhere Erfolgsrate erzielt als frühere Skill-basierte und Reinforcement Learning-Baselines. Auf ALFWorld erreichte Skill1 eine durchschnittliche Erfolgsrate von 97,5 %, was einer Steigerung von 2,6 Prozentpunkten gegenüber dem bisher besten RetroAgent entspricht.
Ablationsstudien bestätigten die Bedeutung jedes einzelnen Bestandteils des Skill1-Frameworks:
Die Trainingsdynamik zeigte, dass sich die Präzision der Auswahl, die Erfolgsrate der Nutzung und die Qualität der Bibliothek unter dem gemeinsamen Signal simultan verbesserten. Dies deutet auf eine gegenseitige Verstärkung der drei Fähigkeiten hin.
Skill1 fördert eine breitere und vielfältigere Nutzung von Fähigkeiten. Die Visualisierung der konvergierten Bibliotheken zeigte, dass Skill1 fast doppelt so viele hochfrequente Fähigkeiten aktivierte und diese einen grösseren Bereich des Strategieraums abdeckten. Dies steht im Gegensatz zu Systemen ohne ko-evolvierende Signale, bei denen sich die Nutzung auf wenige dominierende Fähigkeiten konzentrierte.
Hinsichtlich des Rechenaufwands zeigte Skill1 einen moderaten Mehraufwand im Vergleich zu Baselines ohne Skill-Bibliothek. Die Destillation trug massgeblich dazu bei, die Qualität der Bibliothek zu steuern und den Rechenaufwand zu begrenzen, indem sie Erfahrungen in prägnante Fähigkeiten komprimierte und so ein übermässiges Wachstum der Bibliothek verhinderte.
Das Skill1-Framework stellt einen Fortschritt in der Entwicklung von LLM-Agenten dar, indem es eine einheitliche Optimierung von Skill-Auswahl, -Nutzung und -Destillation ermöglicht. Die Nutzung eines einzigen, aufgabenergebnisbasierten Signals, das in seine niederfrequenten Trends und hochfrequenten Variationen zerlegt wird, bietet einen eleganten Weg zur Kreditzuweisung ohne zusätzliche Belohnungsmodelle. Die erzielten Leistungssteigerungen auf ALFWorld und WebShop sowie die bestätigte Ko-Evolution der Fähigkeiten unterstreichen das Potenzial dieses Ansatzes.
Trotz der vielversprechenden Ergebnisse bestehen weiterhin Limitationen. Die Evaluation war auf textbasierte Umgebungen beschränkt, und die Generalisierbarkeit auf komplexere oder visuelle Umgebungen bleibt zu untersuchen. Zudem ist die Skalierbarkeit der Skill-Bibliothek bei einer wachsenden Aufgabenvielfalt ein wichtiger Aspekt, der zukünftige Forschungsarbeiten erfordern könnte, etwa durch ausgefeiltere Verdrängungsstrategien oder hierarchische Organisationsformen.
Insgesamt bietet Skill1 eine vielversprechende Perspektive für die Entwicklung autonomer, lernfähiger Agenten und legt den Grundstein für weitere Forschungen zur Optimierung des gesamten Skill-Lebenszyklus in breiteren Agentenkontexten.
Bibliography: - Shi, Y., Chen, Y., Lu, Z., Miao, Y., Liu, S., Gu, Q., Cai, X., Wang, X., & Zhang, A. (2026). Skill1: Unified Evolution of Skill-Augmented Agents via Reinforcement Learning. arXiv preprint arXiv:2605.06130. - Xia, P., Chen, J., Wang, H., Liu, J., Zeng, K., Wang, Y., Han, S., Zhou, Y., Zhao, X., Chen, H., et al. (2026). SkillRL: Evolving Agents via Recursive Skill-Augmented Reinforcement Learning. arXiv preprint arXiv:2602.08234. - Yao, S., Chen, H., Yang, J., & Narasimhan, K. (2022a). WebShop: Towards scalable real-world web interaction with grounded language agents. Advances in Neural Information Processing Systems, 35, 20744-20757. - Shinn, N., Cassano, F., Gopinath, A., Narasimhan, K., & Yao, S. (2023). Reflexion: Language agents with verbal reinforcement learning. Advances in Neural Information Processing Systems, 36, 8634-8652. - Shridhar, M., Yuan, X., Côté, M., Bisk, Y., Trischler, A., & Hausknecht, M. J. (2021). ALFWorld: Aligning text and embodied environments for interactive learning. 9th International Conference on Learning Representations, ICLR 2021. - Shao, Z., Wang, P., Zhu, Q., Xu, R., Song, J., Bi, X., Zhang, H., Zhang, M., Li, Y., Wu, Y., et al. (2024). Deepseekmath: Pushing the limits of mathematical reasoning in open language models. arXiv preprint arXiv:2402.03300. - Schulman, J., Wolski, F., Dhariwal, P., Radford, A., & Klimov, O. (2017). Proximal policy optimization algorithms. arXiv preprint arXiv:1707.06347. - Sutton, R. S., & Barto, A. G. (2018). Reinforcement learning: An introduction (2nd ed.). MIT Press. - Reimers, N., & Gurevych, I. (2019). Sentence-BERT: Sentence embeddings using Siamese BERT-networks. Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing (EMNLP), 3982-3992. - Yang, A., Yang, B., Zhang, B., et al. (2024). Qwen2.5 technical report. arXiv preprint arXiv:2412.15115. - Feng, L., Xue, Z., Liu, T., & An, B. (2025). Group-in-group policy optimization for LLM agent training. The Thirty-ninth Annual Conference on Neural Information Processing Systems. - Zhang, X., Liu, Z., Zhang, Y., Hu, X., & Shao, W. (2026b). RetroAgent: From solving to evolving via retrospective dual intrinsic feedback. arXiv preprint arXiv:2603.08561.Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen