Optimierung von KI-Agenten durch die neue SkillOpt-Methode von Microsoft

Kategorien:

No items found.

Freigegeben:

June 14, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Microsofts SkillOpt-Methode ermöglicht die Optimierung von KI-Agenten durch das Trainieren von Anweisungsdokumenten.
Ein einfaches Markdown-File, das als "Skill" bezeichnet wird, kann die Leistung von Modellen wie GPT-5.5 auf prozeduralen Aufgaben signifikant verbessern.
SkillOpt behandelt diese Skill-Dokumente als trainierbaren externen Zustand für eingefrorene Sprachmodelle.
Ein separates Optimierungsmodell schlägt basierend auf Agenten-Logs gezielte Bearbeitungen des Skill-Dokuments vor.
Jede vorgeschlagene Änderung wird nur übernommen, wenn sie sich auf einem Validierungsset als vorteilhaft erweist.
Die Methode zeigt konsistent bessere Ergebnisse als etablierte Vergleichsmethoden und ist über verschiedene Modelle und Umgebungen übertragbar.
Die entwickelten Skills bleiben kompakt und lesbar, oft unter 2.000 Tokens.

Die stetige Weiterentwicklung künstlicher Intelligenz ist ein zentrales Thema in der heutigen Technologielandschaft. Eine jüngste Entwicklung von Microsoft in Zusammenarbeit mit drei chinesischen Universitäten, genannt SkillOpt, verspricht eine neuartige Methode zur Leistungssteigerung von KI-Agenten. Diese Methode konzentriert sich auf die Optimierung von Anweisungsdokumenten, sogenannten "Skills", die in einem einfachen Markdown-Format vorliegen können. Die Ergebnisse deuten darauf hin, dass die Leistungsfähigkeit von Modellen wie GPT-5.5 auf prozeduralen Aufgaben um mehr als 20 Prozentpunkte gesteigert werden kann.

Der Ansatz von SkillOpt: Trainierbare Anweisungsdokumente

In der Praxis sind Anweisungsdokumente, die als "Skills" bezeichnet werden, bereits in vielen kommerziellen KI-Produkten etabliert. Beispielsweise hat Anthropic bei Claude ein modulares Skill-System implementiert, das je nach Aufgabe automatisch themenspezifische Anweisungen, Skripte und Ressourcen lädt. Diese Skills bündeln typischerweise Prozeduren, Regeln zur Werkzeugnutzung, Ausgabeformate und bekannte Fehlermuster. Bislang wurden diese Skills jedoch meist manuell erstellt, einmalig von einem Sprachmodell generiert oder durch lose Selbstüberarbeitung angepasst. Keiner dieser Ansätze verhielt sich wie ein echter Optimierer, der eine zuverlässige Verbesserung der Fähigkeiten garantiert.

SkillOpt verfolgt hier einen grundlegend anderen Ansatz. Die Methode behandelt das Skill-Dokument als einen externen, trainierbaren Zustand für ein eingefrorenes Zielmodell. Ein zweites, separates Sprachmodell agiert dabei als Optimierer. Dieses Optimierungsmodell analysiert die Protokolle der Agentenläufe, identifiziert wiederkehrende Fehler- und Erfolgsmuster und schlägt daraufhin begrenzte Bearbeitungen des Skills vor. Diese Bearbeitungen können das Hinzufügen, Löschen oder Ersetzen einzelner Passagen umfassen. Jede vorgeschlagene Änderung wird nur dann akzeptiert, wenn sie auf einem separaten Validierungsset eine messbare Leistungsverbesserung zeigt.

Die Entwickler von SkillOpt haben dabei mehrere Konzepte aus dem Deep Learning auf die Textebene übertragen. Eine Art "Lernrate" begrenzt die Anzahl der Bearbeitungen pro Schritt. Ein Scheduler reduziert die Schrittgröße über die Epochen hinweg. Abgelehnte Bearbeitungen werden in einem Puffer gespeichert und dienen als negative Beispiele für spätere Reflexion. Eine langsame Aktualisierung am Ende jeder Epoche sorgt für die Konsolidierung stabiler Bearbeitungsrichtungen über die Trainingsrunden hinweg, ähnlich dem Prinzip der Gradientenglättung im traditionellen Training.

Ein wesentlicher Vorteil dieser Methode liegt in der klaren Trennung von Trainings- und Einsatzphase. Das Optimierungsmodell ist ausschließlich während des Trainings aktiv und wird danach nicht mehr benötigt. In der Inferenzphase erhält das Zielmodell lediglich eine einfache Markdown-Datei von 300 bis 2.000 Tokens als Kontext.

Konsistente Leistungsverbesserungen über diverse Szenarien

Die Effektivität von SkillOpt wurde in umfassenden Tests auf sechs Benchmarks nachgewiesen, die verschiedene Aufgabenbereiche wie Suche, Tabellenkalkulation, Dokumentenanalyse, Mathematik und verkörperte Aktionen abdecken. Als Zielmodelle dienten sieben verschiedene Systeme, darunter GPT-5.5 und das kleinere Qwen3.5-4B. Die Aufgaben wurden sowohl in direkten Chat-Umgebungen als auch in Agenten-Umgebungen wie Codex und Claude Code ausgeführt.

In nahezu jeder getesteten Kombination erreichte SkillOpt die besten Ergebnisse oder lag gleichauf mit den besten Vergleichsmethoden. Dies gilt im Vergleich zu handgeschriebenen Skills, einmalig durch LLM generierten Skills sowie spezialisierten Methoden wie Trace2Skill, TextGrad, GEPA und EvoSkill. Bei GPT-5.5 im direkten Chat konnte die durchschnittliche Leistung über alle sechs Benchmarks hinweg um etwa 23 Prozentpunkte gesteigert werden.

Besonders deutliche Verbesserungen zeigten sich bei Aufgaben mit strengen Formatierungsanforderungen und komplexer Werkzeugnutzung, wie beispielsweise bei der Bearbeitung von Tabellenkalkulationen. Auch kleinere Modelle profitierten von der Methode, was die Autoren als Beleg dafür werten, dass ein gut trainierter Skill prozedurales Wissen bereitstellt, das diesen Modellen in ihren Gewichten fehlt.

Die Analyse der Trainingsverläufe zeigte, dass die durch Validierung ausgewählten Checkpoints die Leistung auf ungesehenen Testdaten eng widerspiegeln. Dies unterstreicht die Zuverlässigkeit des Optimierungsprozesses.

Übertragbarkeit und Kompaktheit der Skills

Ein bemerkenswertes Ergebnis der Studien ist die Übertragbarkeit der trainierten Skills. Ein auf einem größeren Modell trainierter Skill kann auch kleinere Modelle derselben Familie verbessern. Ein für Tabellenkalkulationen trainierter Skill, der im Codex-Loop optimiert wurde, funktionierte unverändert in Claude Code und hob dort die Leistung auf das gleiche Niveau wie ein direkt in Claude Code trainierter Skill. Ein auf mathematischen Olympiade-Problemen optimierter Skill lieferte auch bei einem verwandten Benchmark ohne erneutes Training Leistungssteigerungen.

Die durchgeführten Ablationsstudien lieferten wichtige Erkenntnisse über die Stabilität der Methode. Ohne ein begrenztes Bearbeitungsbudget driftete der Skill bei jeder Revision zu stark ab. Ohne den Puffer für abgelehnte Bearbeitungen wiederholte der Optimierer die gleichen erfolglosen Versuche. Das Entfernen der langsamen Aktualisierung am Ende jeder Epoche führte zu einem Leistungsabfall von über zwanzig Punkten im SpreadsheetBench, dem größten Rückgang im gesamten Experiment. Die Autoren betonen, dass nur die Kombination aus begrenzter Schrittgröße, Validierungs-Gating, negativem Feedback und langfristiger Konsolidierung das Skill-Training zu einem kontrollierten Optimierungsprozess macht.

Die finalen Skills bleiben dabei überraschend kompakt. Die fertigen Dokumente überschreiten selten 2.000 Tokens, und die Verbesserungen resultieren oft aus nur ein bis vier akzeptierten Bearbeitungen über vier Trainings-Epochen hinweg. Im OfficeQA-Benchmark resultierte die größte Verbesserung aus einer einzigen akzeptierten Änderung.

Die erlernten Regeln wirken, als hätte ein erfahrener Anwender sie nach einem Tag Arbeit mit dem Benchmark notiert. Für Tabellenkalkulationen lernt der Skill beispielsweise, zuerst die Arbeitsblattstruktur zu überprüfen und direkt ausgewertete Werte in den gesamten Zielbereich zu schreiben, anstatt Excel-Formeln zu verwenden. Für ALFWorld lernt der Agent, ein Protokoll der besuchten Orte zu führen und nicht zum Ziel zu gehen, bevor das Zielobjekt aufgenommen wurde. Diese Regeln beziehen sich nicht auf eine spezifische Aufgabe, sondern beschreiben prozedurale Abläufe.

Die Autoren weisen darauf hin, dass die Methode von einer zuverlässigen automatischen Bewertung abhängt. Für offene Aufgaben, bei denen der Erfolg schwer zu messen ist, müssten menschliche oder modellbasierte Bewertungen im Validierungsschritt eingesetzt werden. SkillOpt ist zudem darauf ausgelegt, ein einzelnes Dokument zu optimieren und nicht eine ganze Skill-Bibliothek, was in sehr vielfältigen Domänen zu einem Engpass werden könnte.

SkillOpt im Kontext der KI-Selbstverbesserung

Während die meisten aktuellen Ansätze zur Selbstverbesserung von KI-Agenten letztendlich die Modellgewichte anpassen, geht SkillOpt einen bemerkenswert schlanken Weg. Andere Frameworks, wie OpenClaw-RL von Princeton-Forschern, nutzen Folge-Signale aus jeder Interaktion – wie Benutzerreaktionen oder Testergebnisse – als Live-Trainingsquelle. MetaClaw extrahiert kompakte Verhaltensregeln aus fehlgeschlagenen Aufgaben und injiziert sie in den Prompt, wobei die Gewichte nur in Leerlaufphasen über Reinforcement Learning aktualisiert werden.

Eine Parallele zu SkillOpt besteht darin, dass in beiden Fällen schwächere Modelle am meisten profitieren, da ihnen prozedurales Wissen fehlt, das eine Regel oder ein Skill direkt liefern kann. Andere Forschungsgruppen gehen noch weiter: AutoTTS lässt einen Code-Agenten selbst nach besseren Reasoning-Kontrollalgorithmen suchen, wodurch sich die menschliche Rolle vom Entwurf der Regeln auf den Entwurf der Umgebung verlagert. Metas Hyperagents optimieren sogar den Mechanismus, mit dem sie sich selbst verbessern. Im Gegensatz dazu hält SkillOpt das Modell eingefroren und ändert nichts als eine lesbare Textdatei.

Diese Entwicklung zeigt, wie durch gezielte Optimierung von externen Anweisungen signifikante Leistungssteigerungen in KI-Systemen erzielt werden können, ohne die internen Modellgewichte zu modifizieren. Für Unternehmen im B2B-Bereich, die auf die Effizienz und Anpassungsfähigkeit von KI-Lösungen angewiesen sind, eröffnet SkillOpt neue Perspektiven für die Entwicklung und Optimierung maßgeschneiderter Agenten-Fähigkeiten.

Bibliography: - Kemper, J. (2026, June 13). Microsoft's SkillOpt boosts GPT-5.5 by using nothing but a trained Markdown file. The Decoder. - Microsoft. (n.d.). SkillOpt | Executive Strategy for Self-Evolving Agent Skills. Retrieved from https://microsoft.github.io/SkillOpt/ - Microsoft Research. (2026, May 22). SkillOpt: Executive Strategy for Self-Evolving Agent Skills. Retrieved from https://www.microsoft.com/en-us/research/publication/skillopt-executive-strategy-for-self-evolving-agent-skills/ - microsoft/SkillOpt. (2026, May 8). GitHub. Retrieved from https://github.com/microsoft/SkillOpt - Dickson, B. (2026, June 11). Microsoft’s open-source SkillOpt automatically upgrades AI agent skills without touching model weights. VentureBeat. - Yang, Y., Gong, Z., Huang, W., Yang, Q., Zhou, Z., Huang, Z., Li, Y., Gao, X., Dai, Q., Liu, B., Qiu, K., Yang, Y., Chen, D., Yang, X.-T., & Luo, C. (2026, May). SkillOpt: Executive Strategy for Self-Evolving Agent Skills. arXiv. Retrieved from https://arxiv.org/html/2605.23904 - skillopt v0.1.0. (n.d.). PyPI. Retrieved from https://pypi.org/project/skillopt/ - microsoft/SkillOpt/ckpt/README.md at main. (2026, May 31). GitHub. Retrieved from https://github.com/microsoft/SkillOpt/blob/main/ckpt/README.md - AlphaSignal AI. (2026, May 26). The Third Way to Adapt a Frontier Agent. Substack. Retrieved from https://alphasignalai.substack.com/p/the-third-way-to-adapt-a-frontier - Treiber, M. (2026, May 27). Your Skill File Now Has a Backward Pass. Ikangai. Retrieved from https://www.ikangai.com/your-skill-file-now-has-a-backward-pass/