Neuer Ansatz zur präzisen Dekodierung kontinuierlicher Ausgaben in Vision-Language Models

Kategorien:

No items found.

Freigegeben:

June 12, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Viele moderne Vision-Language Models (VLMs) nutzen auto-regressives Decoding diskreter Token, was für präzise kontinuierliche Ausgaben ungeeignet ist.
DRIFT ist ein neues Framework, das vortrainierte VLMs für Aufgaben mit kontinuierlichen Ausgaben adaptiert.
Es kombiniert einen Basisschätzer für eine grobe Vorhersage mit einem generativen Verfeinerungsmodul, das auf Flow Matching basiert.
Diese residuale Formulierung vereinfacht die Optimierung erheblich, indem sie sich auf die Modellierung einer lokalisierten Restverteilung konzentriert.
DRIFT erzielt konsistent bessere Ergebnisse als etablierte Regressions- und generative Lösungen in Wahrnehmungs- und Planungsaufgaben, einschließlich visueller Verankerung und Robotiksteuerung.

Die Forschung im Bereich der Künstlichen Intelligenz schreitet kontinuierlich voran, insbesondere bei der Entwicklung von Vision-Language Models (VLMs). Diese Modelle, die das Verständnis von Bildern und Sprache kombinieren, haben in den letzten Jahren beeindruckende Fortschritte gemacht. Eine zentrale Herausforderung bleibt jedoch die präzise Generierung kontinuierlicher Ausgaben, wie sie beispielsweise für die genaue Lokalisierung von Ereignissen oder die Steuerung von Robotern erforderlich sind. Traditionelle VLMs basieren oft auf auto-regressivem Decoding diskreter Token, was zwar für textbasierte Ausgaben effizient ist, aber an Grenzen stößt, wenn feingranulare, kontinuierliche Werte benötigt werden.

Die Herausforderung kontinuierlicher Ausgaben in VLMs

Moderne VLMs zeichnen sich durch ihre Fähigkeit aus, aus grossen Datenmengen zu lernen und eine starke Zero-Shot-Generalisierung über verschiedene Aufgaben hinweg zu erreichen. Ihre Architektur, die auf der sequenziellen Generierung diskreter Token basiert, ist jedoch für bestimmte Anwendungsbereiche suboptimal. Wenn es darum geht, kontinuierliche Grössen wie Zeitintervalle, räumliche Koordinaten oder präzise Bewegungsbefehle für Roboter zu erzeugen, können diskrete Token zu Ungenauigkeiten führen. Die Umwandlung eines kontinuierlichen Raumes in eine diskrete Repräsentation geht zwangsläufig mit einem Informationsverlust einher, der die Präzision der Ausgabe beeinträchtigt.

Ein Beispiel hierfür ist die visuelle Verankerung (Visual Grounding), bei der es darum geht, Objekte oder Regionen in einem Bild basierend auf einer sprachlichen Beschreibung präzise zu identifizieren und deren genaue Bounding-Box-Koordinaten auszugeben. Ein weiteres Beispiel ist die Robotiksteuerung, die kontinuierliche Aktionswerte für Gelenkpositionen oder Geschwindigkeiten erfordert. Für diese und ähnliche Aufgaben ist ein Mechanismus notwendig, der die intrinsische Kontinuität der Ausgaben direkt modellieren kann, anstatt sie durch diskrete Token zu approximieren.

DRIFT: Ein neuer Ansatz für präzise Dekodierung

Um diese Lücke zu schliessen, wurde DRIFT (A Residual Flow Adapter for Decoding Continuous Outputs in Vision-Language Models) entwickelt. DRIFT stellt ein allgemeines Framework dar, das darauf abzielt, vortrainierte VLMs für kontinuierliche Dekodierungsaufgaben zu adaptieren. Der Kernansatz von DRIFT liegt in der Kombination eines Basisschätzers mit einem generativen Verfeinerungsmodul, das auf Flow Matching basiert.

Die Komponenten von DRIFT

Das Framework setzt sich aus zwei Hauptkomponenten zusammen:

Basisschätzer: Dieser Modul ist für die Bereitstellung einer groben Schätzung der Zielausgabe verantwortlich. Er kann auf bestehenden VLM-Architekturen aufbauen und liefert einen ersten Anhaltspunkt für die kontinuierliche Grösse. Diese erste Schätzung dient als starkes Prior für den nachfolgenden Verfeinerungsprozess.
Generatives Verfeinerungsmodul (Flow Matching): Aufbauend auf der groben Schätzung des Basisschätzers, kommt dieses Modul zum Einsatz. Es nutzt Flow Matching, eine Technik, die generative Modelle zur iterativen Verbesserung der Vorhersage trainiert. Flow Matching ermöglicht es, eine Transformation zwischen einer einfachen Rauschverteilung und der komplexen Verteilung der kontinuierlichen Ausgaben zu lernen. Durch die residuale Formulierung wird das Problem der Modellierung einer globalen Ausgabeverteilung in die Modellierung einer lokalisierten Restverteilung um einen starken Prior herum transformiert. Dies vereinfacht die Optimierung erheblich und führt zu präziseren Ergebnissen.

Die residuale Formulierung ist ein entscheidender Aspekt des DRIFT-Ansatzes. Anstatt die gesamte kontinuierliche Ausgabe von Grund auf neu zu generieren, konzentriert sich das Modell auf die Generierung der Differenz oder des "Residuums" zwischen der groben Basisschätzung und der tatsächlichen, präzisen Ausgabe. Dies macht den Lernprozess effizienter und stabiler, da das Modell nicht die gesamte Komplexität der Zielverteilung erfassen muss, sondern sich auf die Verfeinerung einer bereits vorhandenen Schätzung konzentrieren kann.

Anwendungsbereiche und Leistung

Die Wirksamkeit von DRIFT wurde in verschiedenen Wahrnehmungs- und Planungsaufgaben evaluiert. Dazu gehören:

Visuelle Verankerung (Visual Grounding): Hierbei geht es um die präzise Lokalisierung von Objekten in Bildern basierend auf textuellen Beschreibungen. DRIFT ermöglicht die Ausgabe genauerer Bounding-Box-Koordinaten.
Robotiksteuerung: In diesem Bereich erfordert die Steuerung von Robotern oft kontinuierliche Aktionswerte, um flüssige und präzise Bewegungen zu gewährleisten. DRIFT kann hierbei helfen, die Genauigkeit der Steuerung zu verbessern.

Die Ergebnisse der Evaluation zeigen, dass DRIFT konsistent bessere Leistungen erbringt als eine Reihe von etablierten Regressions- und generativen Lösungen. Dies gilt über verschiedene Architekturen hinweg, einschliesslich Multi-modal Large Language Models (MLLMs), Vision-Language-Action Models (VLAs) und World Action Models (WAMs). Diese Überlegenheit unterstreicht das Potenzial von DRIFT, die Grenzen der aktuellen VLM-Fähigkeiten im Hinblick auf kontinuierliche Ausgaben zu erweitern.

Technologische Implikationen und Zukunftsaussichten

Die Einführung des DRIFT-Frameworks hat weitreichende technologische Implikationen. Es bietet eine generische Methode, vortrainierte VLMs für eine breitere Palette von Aufgaben nutzbar zu machen, die präzise kontinuierliche Ausgaben erfordern. Dies kann die Entwicklung in Bereichen wie der autonomen Robotik, der erweiterten Realität (AR), der medizinischen Bildanalyse und anderen Domänen, in denen feingranulare Interaktionen mit der physischen Welt oder komplexen Datenstrukturen entscheidend sind, erheblich vorantreiben.

Die Fähigkeit, von diskreten Token-basierten Ausgaben zu präzisen kontinuierlichen Werten zu wechseln, ohne die Vorteile der vortrainierten VLMs zu verlieren, ist ein signifikanter Fortschritt. Es könnte die Entwicklung von flexibleren und leistungsfähigeren KI-Systemen ermöglichen, die sowohl textuelle als auch numerische Informationen nahtlos verarbeiten und generieren können.

Zukünftige Forschungsarbeiten könnten sich darauf konzentrieren, die Effizienz des Flow Matching-Prozesses weiter zu optimieren, DRIFT auf noch komplexere und dynamische Umgebungen anzuwenden und seine Robustheit gegenüber Rauschen und Unsicherheiten zu verbessern. Die Kombination dieser Fortschritte mit anderen aufkommenden Technologien im Bereich der generativen KI könnte zu noch leistungsfähigeren und vielseitigeren Vision-Language Models führen.

Zusammenfassend lässt sich sagen, dass DRIFT einen wichtigen Schritt zur Überbrückung der Lücke zwischen diskreten und kontinuierlichen Ausgaben in Vision-Language Models darstellt. Durch seinen innovativen Ansatz, der auf einer residualen Formulierung und Flow Matching basiert, ermöglicht es eine präzisere und effizientere Dekodierung von kontinuierlichen Grössen, was die Anwendbarkeit von VLMs in einer Vielzahl von realen Szenarien erheblich erweitert.

Bibliography

- Liu, Z., Lin, J., Cheng, K. M., Zhang, L., Bagchi, S., & Li, Y. (2026). DRIFT: A Residual Flow Adapter for Decoding Continuous Outputs in Vision-Language Models. arXiv preprint arXiv:2606.05758. - Hugging Face Papers. (n.d.). DRIFT: A Residual Flow Adapter for Decoding Continuous Outputs in Vision-Language Models. Retrieved from https://huggingface.co/papers/2606.05758 - The Moonlight. (n.d.). [Literature Review] DRIFT: A Residual Flow Adapter for Decoding Continuous Outputs in Vision-Language Models. Retrieved from https://www.themoonlight.io/review/drift-a-residual-flow-adapter-for-decoding-continuous-outputs-in-vision-language-models