Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Robotik und die Künstliche Intelligenz (KI) entwickeln sich rasant weiter. Ein besonders spannendes Feld ist die Entwicklung von Modellen, die visuelle Informationen, Sprache und Aktionen miteinander verknüpfen. Diese sogenannten Visual-Language-Action (VLA) Modelle ermöglichen es Robotern, komplexe Aufgaben basierend auf visuellen und sprachlichen Anweisungen auszuführen. Ein vielversprechender neuer Ansatz in diesem Bereich ist NORA, ein kompaktes und quelloffenes VLA-Modell.
Bisherige VLA-Modelle zeigen zwar beeindruckende Ergebnisse in Zero-Shot-Szenarien, also in Situationen, für die sie nicht explizit trainiert wurden. Sie stoßen jedoch auch auf Herausforderungen. Ein Problem liegt in der visuellen Enkodierung: Die Modelle können Schwierigkeiten haben, Objekte korrekt zu erkennen und zu greifen. Ein weiterer Nachteil ist der hohe Rechenaufwand. Viele VLA-Modelle verfügen über Milliarden von Parametern, was sie für den Einsatz in Echtzeit-Robotikanwendungen unpraktisch macht.
NORA wurde entwickelt, um diese Herausforderungen anzugehen. Mit 3 Milliarden Parametern ist NORA deutlich kleiner als viele vergleichbare Modelle und somit rechen- und energieeffizienter. Als Grundlage dient das multimodale Modell Qwen-2.5-VL-3B, das für sein gutes visuell-semantisches Verständnis bekannt ist. Dies verbessert die visuelle Schlussfolgerung und die Handlungsfindung von NORA. Zusätzlich wurde NORA mit 970.000 realen Roboterdemonstrationen trainiert und nutzt den FAST+ Tokenizer für eine effiziente Generierung von Aktionssequenzen.
Erste Ergebnisse zeigen, dass NORA bestehende, größere VLA-Modelle in puncto Aufgabenleistung übertrifft, und das bei deutlich reduziertem Rechenaufwand. Dies macht NORA zu einer vielversprechenden Lösung für Echtzeit-Robotikanwendungen. Der quelloffene Charakter von NORA trägt zudem zur weiteren Forschung und Entwicklung im Bereich der VLA-Modelle bei.
Die Veröffentlichung von NORA als Open-Source-Projekt ist ein wichtiger Schritt. Es ermöglicht der Forschungsgemeinschaft, den Code zu untersuchen, zu modifizieren und weiterzuentwickeln. Dieser kollaborative Ansatz beschleunigt den Fortschritt im Bereich der Robotik und KI. Durch die Bereitstellung von vortrainierten Modellen und Datensätzen können auch kleinere Unternehmen und Forschungsgruppen von den neuesten Entwicklungen profitieren.
NORA hat das Potenzial, die Entwicklung von intelligenten Robotern voranzutreiben. Die Kombination aus effizienter Architektur, robuster Leistung und Open-Source-Charakter eröffnet neue Möglichkeiten für den Einsatz von VLA-Modellen in verschiedensten Bereichen, von der industriellen Automatisierung bis hin zur Unterstützung im Haushalt. Zukünftige Forschung könnte sich auf die weitere Verbesserung der visuellen Enkodierung und die Integration von NORA in reale Robotersysteme konzentrieren.
Bibliographie: - https://www.arxiv.org/abs/2504.19854 - https://arxiv.org/html/2504.19854v1 - https://declare-lab.github.io/nora - https://x.com/iScienceLuvr/status/1917137877827490120 - https://huggingface.co/papers?q=real-world%20robot%20demonstrations - https://papers.cool/arxiv/cs.RO - https://x.com/nielsrogge?lang=de - https://twitter.com/NielsRogge/status/1917207271341257079 - https://github.com/jonyzhang2023/awesome-embodied-vla-va-vln - https://huggingface.co/papers?q=action%20tokenizerLernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen