Neuer kompakter Open-Source-Ansatz für visuelle Sprach-Aktions-Modelle

Kategorien:

No items found.

Freigegeben:

May 5, 2025

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Ein neuer, kompakter und quelloffener Ansatz für visuelle Sprach-Aktions-Modelle: NORA

Die Robotik und die Künstliche Intelligenz (KI) entwickeln sich rasant weiter. Ein besonders spannendes Feld ist die Entwicklung von Modellen, die visuelle Informationen, Sprache und Aktionen miteinander verknüpfen. Diese sogenannten Visual-Language-Action (VLA) Modelle ermöglichen es Robotern, komplexe Aufgaben basierend auf visuellen und sprachlichen Anweisungen auszuführen. Ein vielversprechender neuer Ansatz in diesem Bereich ist NORA, ein kompaktes und quelloffenes VLA-Modell.

Herausforderungen bestehender VLA-Modelle

Bisherige VLA-Modelle zeigen zwar beeindruckende Ergebnisse in Zero-Shot-Szenarien, also in Situationen, für die sie nicht explizit trainiert wurden. Sie stoßen jedoch auch auf Herausforderungen. Ein Problem liegt in der visuellen Enkodierung: Die Modelle können Schwierigkeiten haben, Objekte korrekt zu erkennen und zu greifen. Ein weiterer Nachteil ist der hohe Rechenaufwand. Viele VLA-Modelle verfügen über Milliarden von Parametern, was sie für den Einsatz in Echtzeit-Robotikanwendungen unpraktisch macht.

NORA: Ein effizienter Ansatz

NORA wurde entwickelt, um diese Herausforderungen anzugehen. Mit 3 Milliarden Parametern ist NORA deutlich kleiner als viele vergleichbare Modelle und somit rechen- und energieeffizienter. Als Grundlage dient das multimodale Modell Qwen-2.5-VL-3B, das für sein gutes visuell-semantisches Verständnis bekannt ist. Dies verbessert die visuelle Schlussfolgerung und die Handlungsfindung von NORA. Zusätzlich wurde NORA mit 970.000 realen Roboterdemonstrationen trainiert und nutzt den FAST+ Tokenizer für eine effiziente Generierung von Aktionssequenzen.

Verbesserte Leistung bei reduziertem Rechenaufwand

Erste Ergebnisse zeigen, dass NORA bestehende, größere VLA-Modelle in puncto Aufgabenleistung übertrifft, und das bei deutlich reduziertem Rechenaufwand. Dies macht NORA zu einer vielversprechenden Lösung für Echtzeit-Robotikanwendungen. Der quelloffene Charakter von NORA trägt zudem zur weiteren Forschung und Entwicklung im Bereich der VLA-Modelle bei.

Die Bedeutung von Open-Source und der Community

Die Veröffentlichung von NORA als Open-Source-Projekt ist ein wichtiger Schritt. Es ermöglicht der Forschungsgemeinschaft, den Code zu untersuchen, zu modifizieren und weiterzuentwickeln. Dieser kollaborative Ansatz beschleunigt den Fortschritt im Bereich der Robotik und KI. Durch die Bereitstellung von vortrainierten Modellen und Datensätzen können auch kleinere Unternehmen und Forschungsgruppen von den neuesten Entwicklungen profitieren.

Zukunftsperspektiven

NORA hat das Potenzial, die Entwicklung von intelligenten Robotern voranzutreiben. Die Kombination aus effizienter Architektur, robuster Leistung und Open-Source-Charakter eröffnet neue Möglichkeiten für den Einsatz von VLA-Modellen in verschiedensten Bereichen, von der industriellen Automatisierung bis hin zur Unterstützung im Haushalt. Zukünftige Forschung könnte sich auf die weitere Verbesserung der visuellen Enkodierung und die Integration von NORA in reale Robotersysteme konzentrieren.

Bibliographie: - https://www.arxiv.org/abs/2504.19854 - https://arxiv.org/html/2504.19854v1 - https://declare-lab.github.io/nora - https://x.com/iScienceLuvr/status/1917137877827490120 - https://huggingface.co/papers?q=real-world%20robot%20demonstrations - https://papers.cool/arxiv/cs.RO - https://x.com/nielsrogge?lang=de - https://twitter.com/NielsRogge/status/1917207271341257079 - https://github.com/jonyzhang2023/awesome-embodied-vla-va-vln - https://huggingface.co/papers?q=action%20tokenizer