Die Robotik und die Künstliche Intelligenz (KI) entwickeln sich rasant weiter. Ein besonders spannendes Feld ist die Entwicklung von Modellen, die visuelle Informationen, Sprache und Aktionen miteinander verknüpfen. Diese sogenannten Visual-Language-Action (VLA) Modelle ermöglichen es Robotern, komplexe Aufgaben basierend auf visuellen und sprachlichen Anweisungen auszuführen. Ein vielversprechender neuer Ansatz in diesem Bereich ist NORA, ein kompaktes und quelloffenes VLA-Modell.
Bisherige VLA-Modelle zeigen zwar beeindruckende Ergebnisse in Zero-Shot-Szenarien, also in Situationen, für die sie nicht explizit trainiert wurden. Sie stoßen jedoch auch auf Herausforderungen. Ein Problem liegt in der visuellen Enkodierung: Die Modelle können Schwierigkeiten haben, Objekte korrekt zu erkennen und zu greifen. Ein weiterer Nachteil ist der hohe Rechenaufwand. Viele VLA-Modelle verfügen über Milliarden von Parametern, was sie für den Einsatz in Echtzeit-Robotikanwendungen unpraktisch macht.
NORA wurde entwickelt, um diese Herausforderungen anzugehen. Mit 3 Milliarden Parametern ist NORA deutlich kleiner als viele vergleichbare Modelle und somit rechen- und energieeffizienter. Als Grundlage dient das multimodale Modell Qwen-2.5-VL-3B, das für sein gutes visuell-semantisches Verständnis bekannt ist. Dies verbessert die visuelle Schlussfolgerung und die Handlungsfindung von NORA. Zusätzlich wurde NORA mit 970.000 realen Roboterdemonstrationen trainiert und nutzt den FAST+ Tokenizer für eine effiziente Generierung von Aktionssequenzen.
Erste Ergebnisse zeigen, dass NORA bestehende, größere VLA-Modelle in puncto Aufgabenleistung übertrifft, und das bei deutlich reduziertem Rechenaufwand. Dies macht NORA zu einer vielversprechenden Lösung für Echtzeit-Robotikanwendungen. Der quelloffene Charakter von NORA trägt zudem zur weiteren Forschung und Entwicklung im Bereich der VLA-Modelle bei.
Die Veröffentlichung von NORA als Open-Source-Projekt ist ein wichtiger Schritt. Es ermöglicht der Forschungsgemeinschaft, den Code zu untersuchen, zu modifizieren und weiterzuentwickeln. Dieser kollaborative Ansatz beschleunigt den Fortschritt im Bereich der Robotik und KI. Durch die Bereitstellung von vortrainierten Modellen und Datensätzen können auch kleinere Unternehmen und Forschungsgruppen von den neuesten Entwicklungen profitieren.
NORA hat das Potenzial, die Entwicklung von intelligenten Robotern voranzutreiben. Die Kombination aus effizienter Architektur, robuster Leistung und Open-Source-Charakter eröffnet neue Möglichkeiten für den Einsatz von VLA-Modellen in verschiedensten Bereichen, von der industriellen Automatisierung bis hin zur Unterstützung im Haushalt. Zukünftige Forschung könnte sich auf die weitere Verbesserung der visuellen Enkodierung und die Integration von NORA in reale Robotersysteme konzentrieren.
Bibliographie: - https://www.arxiv.org/abs/2504.19854 - https://arxiv.org/html/2504.19854v1 - https://declare-lab.github.io/nora - https://x.com/iScienceLuvr/status/1917137877827490120 - https://huggingface.co/papers?q=real-world%20robot%20demonstrations - https://papers.cool/arxiv/cs.RO - https://x.com/nielsrogge?lang=de - https://twitter.com/NielsRogge/status/1917207271341257079 - https://github.com/jonyzhang2023/awesome-embodied-vla-va-vln - https://huggingface.co/papers?q=action%20tokenizerEntdecken Sie die Vorteile gegenüber ChatGPT Plus
Sie nutzen bereits ChatGPT Plus? Das ist ein guter Anfang! Aber stellen Sie sich vor, Sie hätten Zugang zu allen führenden KI-Modellen weltweit, könnten mit Ihren eigenen Dokumenten arbeiten und nahtlos im Team kollaborieren.
Die professionelle KI-Plattform für Unternehmen – leistungsstärker, flexibler und sicherer als ChatGPT Plus. Mit über 50 Modellen, DSGVO-konformer Infrastruktur und tiefgreifender Integration in Unternehmensprozesse.
❌ Kein strukturierter Dokumentenvergleich
❌ Keine Bearbeitung im Dokumentkontext
❌ Keine Integration von Unternehmenswissen
✅ Gezielter Dokumentenvergleich mit Custom-Prompts
✅ Kontextbewusste Textbearbeitung im Editor
✅ Wissensbasierte Analyse & Zusammenfassungen
Erstellen Sie leistungsstarke Wissensdatenbanken aus Ihren Unternehmensdokumenten.Mindverse Studio verknüpft diese direkt mit der KI – für präzise, kontextbezogene Antworten auf Basis Ihres spezifischen Know-hows.DSGVO-konform, transparent und jederzeit nachvollziehbar.
❌ Nur ein Modellanbieter (OpenAI)
❌ Keine Modellauswahl pro Use Case
❌ Keine zentrale Modellsteuerung für Teams
✅ Zugriff auf über 50 verschiedene KI-Modelle
✅ Modellauswahl pro Prompt oder Assistent
✅ Zentrale Steuerung auf Organisationsebene
❌ Keine echte Teamkollaboration
❌ Keine Rechte- oder Rollenverteilung
❌ Keine zentrale Steuerung oder Nachvollziehbarkeit
✅ Teamübergreifende Bearbeitung in Echtzeit
✅ Granulare Rechte- und Freigabeverwaltung
✅ Zentrale Steuerung & Transparenz auf Organisationsebene
Nutzen Sie Mindverse Studio als zentrale Plattform für abteilungsübergreifende Zusammenarbeit.Teilen Sie Wissen, erstellen Sie gemeinsame Workflows und integrieren Sie KI nahtlos in Ihre täglichen Prozesse – sicher, skalierbar und effizient.Mit granularen Rechten, transparenter Nachvollziehbarkeit und Echtzeit-Kollaboration.
Sehen Sie Mindverse Studio in Aktion. Buchen Sie eine persönliche 30-minütige Demo.
🎯 Kostenlose Demo buchenLernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen