Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Fähigkeit von Künstlicher Intelligenz, kontinuierlich zu lernen und sich an neue Informationen anzupassen, ohne dabei bereits erworbenes Wissen zu verlieren, ist eine zentrale Herausforderung in der Entwicklung von KI-Systemen. Dieses sogenannte "Continual Learning" oder "lebenslanges Lernen" ist entscheidend, um KI-Modelle von statischen Systemen zu dynamischen und sich selbst verbessernden Entitäten zu entwickeln, die menschlichem Lernen nachempfunden sind. Eine aktuelle Forschungsarbeit von Idan Shenfeld, Mehul Damani, Jonas Hübotter und Pulkit Agrawal, veröffentlicht auf arXiv, beleuchtet eine vielversprechende Methode: das Self-Distillation Fine-Tuning (SDFT).
Foundation Models, die in den letzten Jahren in Bereichen wie Sprachverarbeitung, Bilderkennung und Robotik beeindruckende Erfolge erzielt haben, bleiben nach ihrer Bereitstellung oft statisch. Obwohl sie ihr Verhalten zur Inferenzzeit durch Mechanismen wie Retrieval oder Prompting anpassen können, aktualisieren sie ihre Parameter nicht, um neue Fähigkeiten zu erwerben oder Wissen zu internalisieren. Das Hauptproblem hierbei ist das "katastrophale Vergessen" (catastrophic forgetting), bei dem ein Modell, das neue Aufgaben lernt, dazu neigt, zuvor erlernte Fähigkeiten zu vergessen. Dies stellt eine erhebliche Hürde für die Entwicklung von Systemen dar, die über längere Zeiträume hinweg lernen und sich verbessern können.
Bisherige Ansätze im kontinuierlichen Lernen umfassen oft On-Policy-Reinforcement-Learning (RL), das das Vergessen reduzieren kann. Dies erfordert jedoch explizite Belohnungsfunktionen, die in vielen realen Szenarien nicht verfügbar oder schwer zu spezifizieren sind. Alternativ wird häufig aus Expertendemonstrationen gelernt, wobei Supervised Fine-Tuning (SFT) die dominierende Methode darstellt. SFT trainiert das Modell, um Expertenaktionen unter einer festen, Offline-Datenverteilung zu imitieren. Obwohl SFT einfach und skalierbar ist, ist es von Natur aus Off-Policy, was bei sequenziellem Lernen zu schlechter Generalisierung und erheblichem katastrophalem Vergessen führen kann, wenn Modelle an neue Aufgaben oder Domänen angepasst werden.
Die Forscher schlagen mit Self-Distillation Fine-Tuning (SDFT) eine neue Methode vor, die On-Policy-Lernen direkt aus Demonstrationen ermöglicht. SDFT nutzt die In-Context-Lernfähigkeit großer vortrainierter Modelle aus. Diese Fähigkeit erlaubt es Modellen, ihr Verhalten anzupassen, wenn sie mit Beispielen konditioniert werden, ohne dass Parameteraktualisierungen erforderlich sind.
Im Kern von SDFT agiert dasselbe Modell in zwei Rollen:
Das Training destilliert die Vorhersagen des Lehrers in den Schüler auf Trajektorien, die vom Schüler selbst generiert werden. Dies führt zu On-Policy-Updates, die Informationen aus Demonstrationen integrieren, ohne dass eine explizite Belohnungsinferenz oder Offline-Imitation erforderlich ist. Durch diese dynamische, instanzweise Konditionierung kann der Lehrer eine feingranulare Aufgabenabsicht ausdrücken, anstatt einer einzelnen globalen Verhaltensvorgabe.
Die Vorteile von On-Policy-Lernen gegenüber Off-Policy-Ansätzen sind in der Forschung wiederholt hervorgehoben worden. Modelle, die mit On-Policy-RL feinabgestimmt wurden, generalisieren besser über die Trainingsverteilung hinaus und lassen sich effektiver auf verwandte Aufgaben übertragen als rein Off-Policy trainierte Modelle. Im Kontext des kontinuierlichen Lernens reduzieren On-Policy-Updates auch das katastrophale Vergessen bei der Anpassung an neue Aufgaben. SDFT zielt darauf ab, diese Vorteile zu nutzen, indem es On-Policy-Lernen aus Demonstrationen ermöglicht, ohne die Notwendigkeit einer expliziten Belohnungsgestaltung.
Die Evaluierung von SDFT erfolgte in zwei Szenarien des kontinuierlichen Lernens:
In beiden Szenarien zeigte SDFT stabile On-Policy-Updates, die das Lernen ermöglichten und das katastrophale Vergessen im Vergleich zu Supervised Learning erheblich reduzierten. SDFT übertraf SFT durchweg, erzielte eine höhere Genauigkeit bei neuen Aufgaben und reduzierte gleichzeitig das katastrophale Vergessen signifikant. In sequenziellen Lernexperimenten, in denen ein einziges Modell nacheinander mehrere Fähigkeiten erwarb, konnte SDFT die Leistung auf zuvor erlernten Fähigkeiten sowie auf unabhängigen, bereits vorhandenen Fähigkeiten aufrechterhalten.
Diese Ergebnisse deuten darauf hin, dass On-Policy-Destillation ein praktikabler Weg für kontinuierliches Lernen aus Demonstrationen ist. Die Methode bietet eine Lösung für das Problem, wie die Vorteile des On-Policy-Lernens genutzt werden können, wenn nur Demonstrationen verfügbar sind und keine expliziten Belohnungsfunktionen definiert werden können.
Die Erkenntnisse aus dieser Forschung sind von großer Bedeutung für die Weiterentwicklung von KI-Systemen, insbesondere für Unternehmen im B2B-Bereich, die auf ständig lernende und anpassungsfähige KI-Lösungen angewiesen sind. Die Fähigkeit, Modelle kontinuierlich zu aktualisieren und zu verbessern, ohne Leistungseinbußen bei bestehenden Funktionen hinnehmen zu müssen, eröffnet neue Möglichkeiten für Anwendungen in Bereichen wie:
Die Selbst-Destillation stellt somit einen wichtigen Schritt dar, um das Potenzial von KI-Modellen voll auszuschöpfen und sie für eine dynamische und sich ständig verändernde Welt fit zu machen. Die Entwicklung von Methoden, die das katastrophale Vergessen effektiv adressieren, ist entscheidend für die Schaffung robuster und intelligenter KI-Systeme der nächsten Generation.
Die Einführung von Self-Distillation Fine-Tuning (SDFT) markiert einen Fortschritt im Bereich des kontinuierlichen Lernens. Durch die Nutzung der In-Context-Lernfähigkeit von Modellen und die Etablierung eines On-Policy-Destillationsrahmens bietet SDFT eine praktikable Lösung für das Problem des katastrophalen Vergessens beim Lernen aus Demonstrationen. Diese Methode verspricht, die Entwicklung von KI-Systemen voranzutreiben, die kontinuierlich lernen, sich anpassen und ihre Fähigkeiten erweitern können, ohne dabei bestehendes Wissen zu verlieren. Für Unternehmen, die auf zukunftsfähige KI-Lösungen setzen, ist dies ein vielversprechender Ansatz, der die Grundlage für agilere und leistungsfähigere KI-Anwendungen legen könnte.
***
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen