Effiziente Diffusion Transformer für Multitask-Lernen durch den Einsatz von Experten-Denoisern

Kategorien:

No items found.

Freigegeben:

December 20, 2024

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Effiziente Diffusion Transformer Policies mit Experten-Denoisern für Multitask-Lernen

Diffusion Policies haben sich in der Imitation Learning als vielversprechender Ansatz etabliert, da sie multimodales und diskontinuierliches Verhalten generieren können. Mit zunehmender Modellgröße zur Erfassung komplexerer Fähigkeiten steigt jedoch auch der Rechenaufwand, wie aktuelle Skalierungsgesetze zeigen. Die Fortführung der aktuellen Architekturen stößt daher an rechnerische Grenzen.

Um diese Herausforderung zu bewältigen, wurde die Mixture-of-Denoising Experts (MoDE) Policy entwickelt. MoDE übertrifft aktuelle Transformer-basierte Diffusion Policies und ermöglicht gleichzeitig eine parametereffiziente Skalierung durch den Einsatz von Sparse Experts und Noise-Conditioned Routing. Dadurch werden die aktiven Parameter um 40% und die Inferenzkosten durch Expert Caching um 90% reduziert.

Architektur und Funktionsweise von MoDE

Die MoDE-Architektur kombiniert diese effiziente Skalierung mit einem Noise-Conditioned Self-Attention-Mechanismus, der ein effektiveres Denoising über verschiedene Rauschpegel hinweg ermöglicht. Ein zentrales Element von MoDE ist das Noise-Conditioned Routing. Hierbei werden die Token basierend auf dem aktuellen Rauschpegel an spezialisierte Expertenmodelle weitergeleitet. Diese Experten sind für unterschiedliche Phasen des Denoising-Prozesses optimiert und ermöglichen so eine gezieltere und effizientere Rauschunterdrückung.

Abbildung 1: Die MoDE-Architektur (links) verwendet einen Transformer mit kausaler Maskierung. Jeder Block enthält Noise-Conditioned Self-Attention und einen Noise-Conditioned Router, der Token basierend auf dem Rauschpegel Expertenmodellen zuweist. Rechts ist die Aktivierung von Teilmengen einfacher MLP-Experten mit Swish-GLU-Aktivierung während des Denoisings dargestellt.

Durch das Caching der Expertenergebnisse können redundante Berechnungen vermieden und die Inferenzgeschwindigkeit deutlich erhöht werden. Die Kombination aus Sparse Experts, Noise-Conditioned Routing und Caching ermöglicht eine signifikante Reduktion der Rechenkosten, ohne die Performance zu beeinträchtigen.

Performance und Benchmarks

MoDE erzielt State-of-the-Art-Performance auf 134 Aufgaben in vier etablierten Imitation-Learning-Benchmarks (CALVIN und LIBERO). Durch Vortraining auf diversen Robotikdaten erreicht MoDE beispielsweise 4.01 auf CALVIN ABC und 0.95 auf LIBERO-90. Im Vergleich zu CNN-basierten und Transformer Diffusion Policies erreicht MoDE eine durchschnittliche Verbesserung von 57% über alle Benchmarks hinweg, während gleichzeitig 90% weniger FLOPs und weniger aktive Parameter verwendet werden.

Ablation Studies und Erkenntnisse

Umfassende Ablation Studies zu den Komponenten von MoDE liefern weitere Einblicke in das Design effizienter und skalierbarer Transformer-Architekturen für Diffusion Policies. Die Studien untersuchen unter anderem den Einfluss verschiedener Routing-Strategien, Noise-Injection-Techniken und die Verteilung der Experten auf die Performance des Modells. Die Ergebnisse dieser Studien bieten wertvolle Erkenntnisse für die Entwicklung zukünftiger Diffusion Policies.

MoDE und Mindverse

Die Entwicklung von MoDE unterstreicht das Potenzial von KI-gestützten Content-Tools wie Mindverse für die Forschung und Entwicklung im Bereich Künstliche Intelligenz. Mindverse bietet eine All-in-One-Plattform für die Erstellung von Texten, Bildern und die Durchführung von Recherchen. Darüber hinaus entwickelt Mindverse maßgeschneiderte Lösungen wie Chatbots, Voicebots, KI-Suchmaschinen und Wissenssysteme. Die Integration von MoDE in solche Plattformen könnte die Entwicklung und Anwendung effizienter und skalierbarer KI-Modelle weiter beschleunigen.

Bibliographie: - https://openreview.net/forum?id=nDmwloEl3N - https://arxiv.org/html/2412.12953v1 - https://openreview.net/pdf/b48ffcb9ad09e15cf2ddbcd2b9475dc817b5d39c.pdf - https://arxiv.org/abs/2210.14793 - https://paperreading.club/page?id=273617 - https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/07035.pdf - https://link.springer.com/content/pdf/10.1007/978-3-031-73668-1_27 - https://proceedings.neurips.cc/paper_files/paper/2023/file/ccda3c632cc8590ee60ca5ba226a4c30-Paper-Conference.pdf - https://arxiv-sanity-lite.com/?rank=pid&pid=2403.09176 - https://nips.cc/virtual/2024/papers.html