Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Entwicklung von Multimodalen Large Language Models (MLLMs) hat in den letzten Jahren erhebliche Fortschritte bei der Verknüpfung von visueller Wahrnehmung und sprachlicher Argumentation erzielt. Diese Modelle sind in der Lage, komplexe Aufgaben zu bewältigen, die sowohl Bild- als auch Textinformationen erfordern. Eine zentrale Herausforderung bleibt jedoch die starre Natur vieler bestehender Ansätze: Sie neigen dazu, einen einzigen, vordefinierten Denkmodus zu verwenden, der nicht immer optimal auf die jeweilige Benutzeranfrage oder Aufgabenstellung zugeschnitten ist. Eine aktuelle Forschungsarbeit stellt hierzu das Modell "SwimBird" vor, welches einen dynamischen und anpassungsfähigen Ansatz für das multimodale Denken verfolgt.
Traditionelle MLLMs verlassen sich oft auf textbasierte "Chain-of-Thought" (CoT)-Methoden, bei denen das Modell Zwischenschritte seiner Argumentation in Textform generiert. Während dies bei sprachintensiven Aufgaben wie logischen Analysen oder numerischen Berechnungen effektiv sein kann, stößt es bei visuell anspruchsvollen Aufgaben an seine Grenzen. In solchen Fällen, beispielsweise bei der Lösung eines Labyrinths oder der feingranularen visuellen Suche, kann die ausschließliche Beschreibung visueller Evidenz in Sprache zu Ungenauigkeiten und Fehlern führen. Umgekehrt können Ansätze, die "visuelle Gedanken" in Form von kontinuierlichen latenten Zuständen injizieren, zwar die visuelle Leistung verbessern, jedoch oft auf Kosten der textbasierten logischen Argumentation.
Die Kernbeschränkung liegt, so die Argumentation der Forscher, in einem starren, vordefinierten Argumentationsmuster. Dieses Muster kann sich nicht adaptiv an die am besten geeignete Denkmodalität für unterschiedliche Benutzeranfragen anpassen. Ob ein Problem rein textuell, rein visuell oder eine Kombination aus beidem erfordert, wird von existierenden Modellen oft nicht flexibel berücksichtigt.
Das neu entwickelte Modell SwimBird zielt darauf ab, diese Einschränkung zu überwinden, indem es dynamisch zwischen drei Denkmodi wechselt, abhängig von der Eingabe:
Um diese Fähigkeiten zu ermöglichen, setzt SwimBird auf zwei Schlüsselideen:
Ein weiterer wichtiger Aspekt von SwimBird ist die dynamische Zuweisung visueller Gedankentoken. Anstatt eine feste Anzahl von visuellen Token zu generieren, bestimmt das Modell adaptiv die benötigte Menge. Dies erlaubt es, bei visuell intensiven Anfragen mehr Rechenleistung für latente visuelle Prozesse bereitzustellen und gleichzeitig redundante visuelle Gedanken bei textzentrierten Problemen zu vermeiden.
Die Leistungsfähigkeit von SwimBird wurde anhand umfangreicher Experimente auf verschiedenen Benchmarks evaluiert, die sowohl textuelles Denken als auch anspruchsvolles visuelles Verständnis abdecken. Als Basismodell diente Qwen3-VL 8B, welches mittels Supervised Fine-Tuning (SFT) auf dem SwimBird-SFT-92K Datensatz trainiert wurde. Der Vergleich erfolgte mit drei Kategorien von Baselines:
Die Ergebnisse zeigen, dass SwimBird eine führende Leistung bei feingranularer und hochauflösender visueller Wahrnehmung erzielt. Es übertrifft dabei sowohl starke textuelle Baselines als auch existierende multimodale agentische Modelle. Dies deutet darauf hin, dass die adaptive Modusauswahl und die dynamische Zuweisung latenter Token maßgeblich zur Verbesserung der visuellen Detailwahrnehmung beitragen, ohne auf komplexe Tool-Pipelines angewiesen zu sein.
Auch bei allgemeinen VQA- und reasoning-lastigen Benchmarks zeigt SwimBird starke Verbesserungen. Die latenten visuellen Gedanken beeinträchtigen die symbolische Argumentation nicht. Stattdessen nutzt SwimBird bei primär sprachlichen oder mathematischen Aufgaben weiterhin den rein textuellen Denkmodus und aktiviert nur bei Bedarf visuelle oder interleaved Denkprozesse, wenn zusätzliche visuelle Evidenz vorteilhaft ist. Diese adaptive Auswahl, gelernt aus der vielfältigen Supervision im SwimBird-SFT-92K-Datensatz, vermeidet redundante visuelle Gedanken, die die textuelle Logik stören könnten.
Ablationsstudien untersuchten den Einfluss des maximalen Budgets für latente Token und des Gewichtskoeffizienten des MSE-Verlusts. Es zeigte sich, dass ein moderates Maximum für latente Token und ein ausgewogener MSE-Gewichtskoeffizient die beste Leistung über alle Benchmarks hinweg lieferten. Eine zu hohe Anzahl latenter Token oder ein zu starker Fokus auf den visuellen Rekonstruktionsverlust konnte die Leistung in anderen Bereichen beeinträchtigen.
Die Analyse der Denkmodusverteilung von SwimBird über verschiedene Benchmarks hinweg bestätigte das abfrageadaptive Verhalten des Modells. Bei textlogik-dominanten Aufgaben (z.B. DynaMath) nutzte SwimBird fast ausschließlich textuelles Denken. Bei visuell dichten Aufgaben (z.B. V* Bench) wurden hingegen häufiger visuelle oder interleaved Denkmodi aktiviert. Dies belegt, dass SwimBird nicht einem festen Schema folgt, sondern seine Denkstrategie an die spezifischen Anforderungen der jeweiligen Aufgabe anpasst.
SwimBird repräsentiert einen signifikanten Fortschritt in der Entwicklung multimodaler KI-Systeme, indem es die starren Denkmodi früherer Ansätze überwindet. Durch die Einführung einer hybriden autoregressiven Modellierung und einer intelligenten Datensatzkuratierung kann das Modell dynamisch zwischen verschiedenen Argumentationsstrategien wechseln und Ressourcen adaptiv zuweisen. Dies führt zu einer überlegenen Leistung bei einer breiten Palette von Aufgaben, die sowohl textuelles als auch visuelles Verständnis erfordern.
Die Fähigkeit, den Denkmodus flexibel anzupassen, ist ein entscheidender Schritt hin zu intelligenteren und robusteren MLLMs, die komplexe Herausforderungen in vielfältigen realen Szenarien effektiver bewältigen können. Die Erkenntnisse aus der Entwicklung von SwimBird bieten wertvolle Orientierungspunkte für die zukünftige Forschung und Entwicklung im Bereich der multimodalen künstlichen Intelligenz.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen