Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die fortschreitende Entwicklung von Robotersystemen und ihre zunehmende Integration in komplexe, dynamische Umgebungen erfordert Vision-Language-Action (VLA)-Modelle, die sowohl leistungsfähig als auch effizient sind. Insbesondere die Notwendigkeit schneller Inferenzzeiten direkt auf den Geräten stellt eine erhebliche Herausforderung dar. Eine aktuelle Forschungsarbeit mit dem Titel "Shallow-π: Knowledge Distillation for Flow-based VLAs" von Boseong Jeon, Yunho Choi und Taehan Kim vom Samsung Research adressiert diese Problematik durch einen innovativen Ansatz zur Modellkomprimierung.
Die Autoren der Studie betonen, dass die wachsende Nachfrage nach Echtzeit-Robotereinsätzen eine schnelle VLA-Modellinferenz direkt auf den Geräten erforderlich macht. Bestehende VLA-Modelle, insbesondere solche, die auf Fluss-basierten Architekturen wie π setzen, kombinieren oft große VLM-Backbones mit diffusionsbasierten Aktions-Heads. Diese Modelle bestehen aus Dutzenden von Transformator-Schichten und erfordern zusätzliche iterative Diffusionsschritte während der Inferenz, was den Einsatz auf Edge-Geräten erschwert.
Bisherige Bemühungen zur Effizienzsteigerung konzentrierten sich hauptsächlich auf die Token-Ebene, beispielsweise durch visuelles Token-Pruning. Die systematische Reduzierung von Transformator-Schichten, insbesondere bei flussbasierten VLA-Modellen unter Verwendung von Wissensdestillation, wurde hingegen weniger beachtet.
Das vorgeschlagene Framework, genannt Shallow-π, zielt darauf ab, die Tiefe des Transformers sowohl im VLM-Backbone als auch im flussbasierten Aktions-Head aggressiv zu reduzieren. Konkret wird das Modell von 18 auf 6 Schichten komprimiert. Dies führt zu einer mehr als doppelt so schnellen Inferenz bei einem geringen absoluten Rückgang der Erfolgsrate von weniger als einem Prozent bei Standard-Manipulations-Benchmarks.
Die Kerninnovation von Shallow-π liegt in einem prinzipientreuen Wissensdestillations-Framework. Dieses Framework ermöglicht es, die Leistung eines größeren, komplexeren "Lehrer"-Modells auf ein kleineres, effizienteres "Schüler"-Modell zu übertragen. Dabei werden drei komplementäre Verlustfunktionen verwendet:
Die Forscher analysierten die Grenzen bestehender Ansätze zur Schichtreduktion. Methoden wie Layer-Skipping, die auf Merkmalsähnlichkeit oder gelernten Routing-Mechanismen basieren, erwiesen sich für flussbasierte VLAs als unzureichend. Die Ähnlichkeitsprofile variieren stark mit dem Rauschpegel, was feste Überspringregeln unzuverlässig macht. Zudem korreliert die Ähnlichkeit nicht immer mit der funktionalen Bedeutung einer Schicht. Auch das Training kleinerer Backbone-Modelle von Grund auf ist oft mit Leistungseinbußen bei komplexen Manipulationsaufgaben verbunden und reduziert nicht die Tiefe des Aktions-Heads, welcher bei flussbasierten Modellen einen erheblichen Rechenaufwand darstellt.
Shallow-π überwindet diese Einschränkungen, indem es eine gemeinsame Komprimierung des VLM-Backbones und des Aktions-Heads ermöglicht, während die für die Architektur erforderliche schichtweise Merkmalsübertragung beibehalten wird. Die Initialisierung des flachen Schülermodells erfolgt durch eine gleichmäßige Unterabtastung der unteren Schichten des Lehrers, was sich als effektiver erwies als eine auf Sensitivitätsanalyse basierende Auswahl.
Die Wirksamkeit von Shallow-π wurde sowohl in Simulations-Benchmarks (LIBERO) als auch in industriellen Realwelt-Experimenten unter Beweis gestellt. Die Tests umfassten komplexe und dynamische Manipulationsszenarien auf verschiedenen Roboterplattformen, darunter humanoide Systeme, und wurden auf Edge-Geräten wie Jetson Orin und Jetson Thor durchgeführt. Die Ergebnisse zeigen, dass Shallow-π-Modelle eine um mehr als das Zweifache schnellere Inferenzzeit erreichen und dabei nur einen geringen Leistungsabfall von unter einem Prozent im Vergleich zu den größeren Lehrermodellen aufweisen. Dies positioniert Shallow-π als führend unter den reduzierten VLA-Modellen.
Ein entscheidender Vorteil in den Realwelt-Experimenten war die verbesserte Leistung bei dynamischen und komplexen Aufgaben. Die reduzierte Inferenzlatenz ermöglichte es den Robotern, schneller auf Beobachtungen zu reagieren und somit eine präzisere Ausführung zu erzielen. Dies war besonders evident bei Aufgaben, die eine genaue Platzierung oder das Greifen von Objekten in unterschiedlichen Posen erforderten.
Shallow-π stellt einen signifikanten Fortschritt in der Entwicklung effizienter VLA-Modelle für die Robotik dar. Durch die aggressive Reduzierung der Transformatortiefe mittels Wissensdestillation wird die Inferenzgeschwindigkeit erheblich gesteigert, ohne dabei die Leistungsfähigkeit oder Generalisierungsfähigkeit der Modelle zu beeinträchtigen. Dies ist entscheidend für den Einsatz von Robotern in Echtzeitanwendungen und auf ressourcenbeschränkten Edge-Geräten.
Die Autoren weisen darauf hin, dass zukünftige Arbeiten die Trainingskosten der Wissensdestillation weiter optimieren könnten, beispielsweise durch selektives Einfrieren von Modellkomponenten oder die Filterung von Trainingsbeispielen. Darüber hinaus könnten komplementäre Effizienzachsen, wie die Reduzierung visueller Token oder Diffusionsschritte, in zukünftige Forschung einbezogen werden, um den Inferenzdurchsatz weiter zu verbessern.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen