Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
In der Welt des maschinellen Lernens hat sich das Unsupervised Pretraining als äußerst wirkungsvoll erwiesen, insbesondere in Bereichen wie der Bildverarbeitung und der Sprachverarbeitung. Die Übertragung dieser Erfolge auf das Reinforcement Learning (RL) gestaltet sich jedoch komplexer. Im Gegensatz zum Supervised Learning, bei dem Modelle darauf trainiert werden, spezifische Datenmuster zu imitieren, liegt der Fokus im RL auf der Entdeckung optimaler Handlungsstrategien durch kontinuierliche Selbstverbesserung. Die Herausforderung besteht darin, die Vorteile des Unsupervised Pretrainings für die Entwicklung effizienter Explorationsstrategien im RL nutzbar zu machen.
Unüberwachtes Vortraining hat in vielen überwachten Bereichen eine bahnbrechende Wirkung erzielt. Die Anwendung solcher Ideen auf Reinforcement Learning (RL) stellt jedoch eine einzigartige Herausforderung dar, da die Feinabstimmung nicht die Nachahmung aufgabenspezifischer Daten beinhaltet, sondern die Erkundung und Lokalisierung der Lösung durch iterative Selbstverbesserung. In dieser Arbeit untersuchen wir, wie nicht gekennzeichnete vorherige Trajektoriedaten genutzt werden können, um effiziente Explorationsstrategien zu erlernen. Während vorherige Daten verwendet werden können, um eine Reihe von Low-Level-Skills vorzutrainieren oder als zusätzliche Off-Policy-Daten für Online-RL dienen können, war bisher unklar, wie diese Ideen effektiv für die Online-Exploration kombiniert werden können. Unsere Methode SUPE (Skills from Unlabeled Prior data for Exploration) zeigt, dass eine sorgfältige Kombination dieser Ideen deren Vorteile erhöht. Unsere Methode extrahiert zunächst mithilfe eines Variationsautoencoders (VAE) Low-Level-Skills und pseudo-relabelt dann nicht gekennzeichnete Trajektorien mithilfe eines optimistischen Belohnungsmodells, wodurch vorherige Daten in High-Level-, aufgabenrelevante Beispiele umgewandelt werden. Schließlich verwendet SUPE diese transformierten Beispiele als zusätzliche Off-Policy-Daten für Online-RL, um eine High-Level-Richtlinie zu lernen, die vorab trainierte Low-Level-Skills zusammensetzt, um effizient zu explorieren. Wir zeigen empirisch, dass SUPE frühere Strategien zuverlässig übertrifft und eine Reihe von Aufgaben mit langem Horizont und spärlicher Belohnung erfolgreich löst. Code: https://github.com/rail-berkeley/supe.
Eine besondere Herausforderung im RL ist die Nutzung von unbeschrifteten Daten, insbesondere von Trajektorien, die aus Interaktionen mit der Umwelt stammen, ohne dass die Ziele der zugrundeliegenden Aktionen bekannt sind. Diese Daten enthalten wertvolle Informationen über die Dynamik der Umwelt und mögliche Handlungsoptionen. Die Schwierigkeit liegt jedoch darin, diese Informationen zu extrahieren und für die Lösung neuer, unbekannter Aufgaben nutzbar zu machen.
Eine vielversprechende Forschungsarbeit mit dem Titel "Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration" stellt eine neue Methode namens SUPE vor. SUPE verfolgt einen hierarchischen Ansatz, um die in unbeschrifteten Trajektorien verborgenen Informationen zu nutzen.
In der ersten Phase, dem Offline-Training, konzentriert sich SUPE auf das Erlernen von Basisfertigkeiten (Skills) aus den unbeschrifteten Daten. Dafür werden die Trajektorien in kurze Segmente unterteilt, die jeweils eine spezifische Fähigkeit repräsentieren. Mithilfe eines Variationsautoencoders (VAE) werden diese Segmente in einen latenten Raum projiziert, der die wichtigsten Merkmale der jeweiligen Fertigkeit abbildet.
Im Online-Training kommt der zweite Schritt von SUPE zum Tragen: die Kombination der erlernten Basisfertigkeiten zu komplexeren Handlungssequenzen. Um die Exploration zu fördern und neue, vielversprechende Lösungen zu entdecken, setzt SUPE auf ein optimistisches Belohnungsmodell. Dieses Modell weist den Trajektorien-Segmenten aus den unbeschrifteten Daten hypothetische Belohnungen zu, die darauf basieren, wie gut sie zu den bereits gesammelten Erfahrungen passen.
Durch die Kombination von Offline- und Online-Training mit einem optimistischen Belohnungsmodell bietet SUPE entscheidende Vorteile für das RL:
Die Fähigkeit, unbeschriftete Daten effektiv zu nutzen, ist ein entscheidender Schritt, um die Grenzen des Reinforcement Learnings zu erweitern. SUPE bietet einen vielversprechenden Ansatz, um dieses Ziel zu erreichen, indem es Basisfertigkeiten aus unbeschrifteten Daten lernt und diese mithilfe eines optimistischen Belohnungsmodells zu komplexeren Handlungssequenzen kombiniert. Die zukünftige Forschung wird zeigen, inwieweit sich dieser Ansatz auf andere RL-Szenarien übertragen lässt und welche weiteren Optimierungsmöglichkeiten es gibt. Die Ergebnisse von SUPE deuten jedoch darauf hin, dass die Kombination von Unsupervised Pretraining und effizienter Exploration ein Schlüssel zur Entwicklung leistungsfähigerer und flexiblerer RL-Agenten ist.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen