Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Entwicklung robuster, sprachgesteuerter Agenten für Embodied AI stellt Forschende vor die Herausforderung, qualitativ hochwertige Trainingsdaten zu generieren. Ein neuer Ansatz, der sogenannte "Self-Refining Data Flywheel" (SRDF), verspricht hier eine Lösung. Dieser Ansatz generiert große Mengen an Navigationsdaten, indem er einen Datenpool iterativ durch das Zusammenspiel eines Instruktionsgenerators und eines Navigators verfeinert – ganz ohne menschliche Annotation.
Der SRDF-Prozess beginnt mit einem Basisgenerator, der einen initialen Datenpool aus Navigationsanweisungen und zugehörigen Trajektorien erstellt. Mit diesem Datenpool wird ein Basisnavigator trainiert. Anschließend filtert der trainierte Navigator den Datenpool und entfernt ungenaue oder ineffiziente Trajektorien. Die verbleibenden, qualitativ hochwertigeren Daten dienen dann dem Training eines verbesserten Generators. Dieser wiederum produziert neue, präzisere Daten für das Training der nächsten Navigator-Generation. Durch diesen iterativen Prozess entsteht ein sich selbst verfeinernder Datenkreislauf.
Experimente mit dem SRDF-Ansatz zeigen beeindruckende Ergebnisse. Nach mehreren Iterationen des Datenkreislaufs erreichte der Navigator im klassischen R2R-Testset einen "Success weighted by Path Length" (SPL) von 78%. Dies übertrifft nicht nur die Leistung bisheriger KI-Systeme, sondern auch die menschliche Leistung von 76% in diesem Test. Gleichzeitig verbessert sich die Qualität des Instruktionsgenerators. Der SPICE-Wert, eine Metrik zur Bewertung der Qualität generierter Instruktionen, stieg von 23,5 auf 26,2 und übertrifft damit alle bisherigen Methoden zur Generierung von Navigationsanweisungen.
Die Skalierbarkeit des SRDF-Ansatzes wurde durch die Erweiterung der Umgebungs- und Instruktionsvielfalt demonstriert. Die Ergebnisse zeigen, dass die Qualität der generierten Daten mit zunehmender Anzahl von Umgebungen steigt. Darüber hinaus wurde die Generalisierbarkeit des vortrainierten Navigators in verschiedenen nachgelagerten Navigationsaufgaben getestet. Auch hier übertraf der SRDF-basierte Navigator die bisherigen State-of-the-Art-Methoden deutlich.
Der SRDF-Ansatz bietet vielversprechende Möglichkeiten für die Zukunft der Embodied AI. Durch die automatische Generierung und Verfeinerung von Trainingsdaten könnten komplexe, sprachgesteuerte Agenten entwickelt werden, die in einer Vielzahl von Anwendungen zum Einsatz kommen – von der Robotik über autonome Fahrzeuge bis hin zu virtuellen Assistenten. Die Fähigkeit, menschliche Leistungen in der Navigation zu übertreffen, eröffnet neue Horizonte für die Forschung und Entwicklung in diesem Bereich. Weitere Forschung ist notwendig, um das volle Potenzial des SRDF-Ansatzes auszuschöpfen und seine Anwendbarkeit in realen Szenarien zu erproben.
Bibliographie Chen, F. et al. "VLP: A Survey on Vision-Language Pre-training." Ghahremani, M. et al. "H-ViT: A Hierarchical Vision Transformer for Deformable Image Registration." CVPR 2024. Guo, W. et al. "Deep Multimodal Representation Learning: A Survey." Haas, L. et al. "PIGEON: Predicting Image Geolocations." CVPR 2024. Kaufmann, T. et al. "A SURVEY OF REINFORCEMENT LEARNING FROM HUMAN FEEDBACK." OpenAI. "GPT-4 Technical Report." Ozguroglu, E. et al. "pix2gestalt: Amodal Segmentation by Synthesizing Wholes." CVPR 2024. Pu Liang, P. et al. "FOUNDATIONS & RECENT TRENDS IN MULTIMODAL MACHINE LEARNING: PRINCIPLES, CHALLENGES, & OPEN QUESTIONS." Verma, A. A. et al. "eTraM: Event-based Traffic Monitoring Dataset." CVPR 2024. Wang, Z. et al. "Bootstrapping Language-Guided Navigation Learning with Self-Refining Data Flywheel." Wang, Z. et al. "Scaling data generation in vision-and-language navigation." Zhao, W. X. et al. "A Survey of Large Language Models."Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen