Selbstverfeinernde Daten für sprachgesteuerte Navigation in der Embodied AI

Kategorien:

No items found.

Freigegeben:

December 15, 2024

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Sprachgesteuerte Navigation: Selbstverfeinernde Daten für Embodied AI

Die Entwicklung robuster, sprachgesteuerter Agenten für Embodied AI stellt Forschende vor die Herausforderung, qualitativ hochwertige Trainingsdaten zu generieren. Ein neuer Ansatz, der sogenannte "Self-Refining Data Flywheel" (SRDF), verspricht hier eine Lösung. Dieser Ansatz generiert große Mengen an Navigationsdaten, indem er einen Datenpool iterativ durch das Zusammenspiel eines Instruktionsgenerators und eines Navigators verfeinert – ganz ohne menschliche Annotation.

Funktionsweise des Self-Refining Data Flywheel

Der SRDF-Prozess beginnt mit einem Basisgenerator, der einen initialen Datenpool aus Navigationsanweisungen und zugehörigen Trajektorien erstellt. Mit diesem Datenpool wird ein Basisnavigator trainiert. Anschließend filtert der trainierte Navigator den Datenpool und entfernt ungenaue oder ineffiziente Trajektorien. Die verbleibenden, qualitativ hochwertigeren Daten dienen dann dem Training eines verbesserten Generators. Dieser wiederum produziert neue, präzisere Daten für das Training der nächsten Navigator-Generation. Durch diesen iterativen Prozess entsteht ein sich selbst verfeinernder Datenkreislauf.

Übermenschliche Leistung in der Navigation

Experimente mit dem SRDF-Ansatz zeigen beeindruckende Ergebnisse. Nach mehreren Iterationen des Datenkreislaufs erreichte der Navigator im klassischen R2R-Testset einen "Success weighted by Path Length" (SPL) von 78%. Dies übertrifft nicht nur die Leistung bisheriger KI-Systeme, sondern auch die menschliche Leistung von 76% in diesem Test. Gleichzeitig verbessert sich die Qualität des Instruktionsgenerators. Der SPICE-Wert, eine Metrik zur Bewertung der Qualität generierter Instruktionen, stieg von 23,5 auf 26,2 und übertrifft damit alle bisherigen Methoden zur Generierung von Navigationsanweisungen.

Skalierbarkeit und Generalisierung

Die Skalierbarkeit des SRDF-Ansatzes wurde durch die Erweiterung der Umgebungs- und Instruktionsvielfalt demonstriert. Die Ergebnisse zeigen, dass die Qualität der generierten Daten mit zunehmender Anzahl von Umgebungen steigt. Darüber hinaus wurde die Generalisierbarkeit des vortrainierten Navigators in verschiedenen nachgelagerten Navigationsaufgaben getestet. Auch hier übertraf der SRDF-basierte Navigator die bisherigen State-of-the-Art-Methoden deutlich.

Zukunftsperspektiven

Der SRDF-Ansatz bietet vielversprechende Möglichkeiten für die Zukunft der Embodied AI. Durch die automatische Generierung und Verfeinerung von Trainingsdaten könnten komplexe, sprachgesteuerte Agenten entwickelt werden, die in einer Vielzahl von Anwendungen zum Einsatz kommen – von der Robotik über autonome Fahrzeuge bis hin zu virtuellen Assistenten. Die Fähigkeit, menschliche Leistungen in der Navigation zu übertreffen, eröffnet neue Horizonte für die Forschung und Entwicklung in diesem Bereich. Weitere Forschung ist notwendig, um das volle Potenzial des SRDF-Ansatzes auszuschöpfen und seine Anwendbarkeit in realen Szenarien zu erproben.

Bibliographie Chen, F. et al. "VLP: A Survey on Vision-Language Pre-training." Ghahremani, M. et al. "H-ViT: A Hierarchical Vision Transformer for Deformable Image Registration." CVPR 2024. Guo, W. et al. "Deep Multimodal Representation Learning: A Survey." Haas, L. et al. "PIGEON: Predicting Image Geolocations." CVPR 2024. Kaufmann, T. et al. "A SURVEY OF REINFORCEMENT LEARNING FROM HUMAN FEEDBACK." OpenAI. "GPT-4 Technical Report." Ozguroglu, E. et al. "pix2gestalt: Amodal Segmentation by Synthesizing Wholes." CVPR 2024. Pu Liang, P. et al. "FOUNDATIONS & RECENT TRENDS IN MULTIMODAL MACHINE LEARNING: PRINCIPLES, CHALLENGES, & OPEN QUESTIONS." Verma, A. A. et al. "eTraM: Event-based Traffic Monitoring Dataset." CVPR 2024. Wang, Z. et al. "Bootstrapping Language-Guided Navigation Learning with Self-Refining Data Flywheel." Wang, Z. et al. "Scaling data generation in vision-and-language navigation." Zhao, W. X. et al. "A Survey of Large Language Models."