Alibabas Qwen3.5-Omni: Fortschritte in multimodaler KI und unerwartete Fähigkeiten

Kategorien:

No items found.

Freigegeben:

April 1, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Alibaba hat mit Qwen3.5-Omni ein multimodales KI-Modell vorgestellt, das Text, Bilder, Audio und Video verarbeiten kann.
Ein herausragendes Merkmal ist die Fähigkeit des Modells, Code aus gesprochenen Anweisungen und Videoinhalten zu generieren, eine sogenannte "emergent capability", die nicht explizit trainiert wurde.
Das Modell übertrifft Berichten zufolge Googles Gemini 3.1 Pro in Audioaufgaben und unterstützt die Spracherkennung in 74 Sprachen.
Qwen3.5-Omni verwendet eine "Thinker-Talker"-Architektur mit einem Hybrid-Attention-MoE-Ansatz und der neuen ARIA-Technologie für eine verbesserte Sprachausgabe in Echtzeit.
Das Modell ist derzeit nur als API-Dienst verfügbar, im Gegensatz zu früheren Qwen-Versionen, bei denen die Modellgewichte offengelegt wurden.

Alibabas Qwen3.5-Omni: Ein Durchbruch in der multimodalen KI mit unerwarteten Fähigkeiten

Die Landschaft der künstlichen Intelligenz (KI) wird weiterhin von raschen Innovationen geprägt. Ein aktuelles Beispiel hierfür ist die Einführung von Qwen3.5-Omni durch das Alibaba Qwen Team. Dieses multimodale KI-Modell, das in drei Varianten (Plus, Flash und Light) erhältlich ist, demonstriert eine bemerkenswerte Fähigkeit zur Verarbeitung und Generierung von Inhalten über verschiedene Modalitäten hinweg: Text, Bilder, Audio und Video. Eine besonders hervorstechende Entwicklung ist die angeborene Fähigkeit des Modells, aus gesprochenen Anweisungen und Videoinhalten Code zu erstellen, eine Funktion, die nicht explizit trainiert wurde.

Architektur und Kerninnovationen

Qwen3.5-Omni basiert auf einer sogenannten "Thinker-Talker"-Architektur. Der "Thinker" ist für die Analyse omnimodaler Eingaben und die Generierung von Text zuständig, während der "Talker" diesen Text in kontextbezogene Sprache umwandelt. Beide Komponenten nutzen eine Hybrid-Attention-Mixture-of-Experts (MoE)-Architektur, die das frühere reine MoE-Setup ersetzt. Diese Architekturanpassung zielt darauf ab, die Leistung und Effizienz bei der Verarbeitung komplexer, multimodaler Daten zu optimieren.

Eine zentrale technische Neuerung ist ARIA (Adaptive Rate Interleave Alignment). Diese Technologie ermöglicht eine dynamische Abstimmung und Verschachtelung von Text- und Sprach-Tokens. ARIA wurde entwickelt, um ein bekanntes Problem bei der Sprachausgabe in Echtzeit zu lösen: Die unterschiedlichen Kodierungsraten von Text- und Sprach-Tokens führten oft zu Aussetzern, Fehlern bei der Aussprache oder unverständlichen Zahlen in Streaming-Gesprächen. ARIA soll die Sprachsynthese natürlicher und robuster gestalten, ohne die Echtzeit-Performance zu beeinträchtigen.

Unerwartete Fähigkeiten: "Audio-Visual Vibe Coding"

Während der Skalierung des omnimodalen Trainings entdeckte das Qwen Team eine sogenannte "emergent capability": Das Modell kann Code direkt aus gesprochenen Anweisungen und Videoinhalten schreiben. Diese Fähigkeit, die als "Audio-Visual Vibe Coding" bezeichnet wird, entstand als Nebenprodukt der nativen multimodalen Skalierung und wurde nicht explizit trainiert. Demonstrationen zeigen, wie Qwen3.5-Omni-Plus beispielsweise ein funktionsfähiges Snake-Spiel basierend auf einer verbalen Beschreibung und einem Videoclip erstellt.

Darüber hinaus ist das Modell in der Lage, Audio- und Videoinhalte detailliert zu beschreiben, wobei die Ausgabe einem Skript ähnelt. Es segmentiert automatisch, fügt sekundengenaue Zeitstempel hinzu und liefert präzise Informationen über Charaktere, Dialoge, Soundeffekte und deren Interaktion. In einem Beispiel analysiert das Modell eine dreiminütige Löwen-Dokumentation Szene für Szene, identifiziert jeden Sprecher, jeden Schnitt und jedes Geräusch. In einer weiteren Demonstration markiert es gewalttätige Szenen in Videospielen für die Inhaltsmoderation und listet diese in einer Tabelle mit Zeitstempeln und Risikostufen auf.

Leistungsmerkmale und Benchmarks

Qwen3.5-Omni-Plus beansprucht den Status als "State of the Art" in 215 Audio- und Audiovisuellen Subaufgaben. Berichten zufolge übertrifft es Googles Gemini 3.1 Pro in der allgemeinen Audioverständnis, Argumentation, Erkennung, Übersetzung und im Dialog. Im audiovisuellen Verständnis erreicht es die Leistung von Gemini 3.1 Pro.

Die Spracherkennung wurde massiv erweitert und unterstützt nun 74 Sprachen sowie 39 chinesische Dialekte, insgesamt 113 Sprachen und Dialekte. Die Vorgängerversion verarbeitete lediglich elf Sprachen. Die Sprachausgabe unterstützt 36 Sprachen und Dialekte mit 55 verfügbaren Stimmen, einschließlich benutzerdefinierter Optionen.

Für Echtzeit-Gespräche bietet Qwen3.5-Omni Funktionen wie "Semantic Interruption", die zwischen Hintergrundgeräuschen und tatsächlichen Sprechabsichten unterscheidet. Das Modell kann eigenständig Web-Suchen durchführen und komplexe Funktionsaufrufe bearbeiten. Benutzer können die Sprachausgabe mittels Sprachbefehlen anpassen, darunter Lautstärke, Tempo und Emotionen.

Verfügbarkeit und strategische Bedeutung

Im Gegensatz zu früheren Qwen-Veröffentlichungen hat Alibaba die Modellgewichte von Qwen3.5-Omni nicht offen zugänglich gemacht. Das Modell ist derzeit ausschließlich als API-Dienst verfügbar. Dies könnte auf eine strategische Entscheidung hindeuten, die Kontrolle über die Technologie zu behalten und kommerzielle Anwendungen zu fördern.

Die schnelle Veröffentlichung von Modellen durch Alibaba, einschließlich des Vorgängers Qwen3-Omni im April 2025 und der Erweiterung der Qwen 3.5 Textmodellreihe, unterstreicht das hohe Tempo der Entwicklung in diesem Bereich. Diese Entwicklungen finden inmitten interner Umstrukturierungen im Alibaba AI-Team statt, was die strategische Bedeutung von Grundlagenmodellen für das Unternehmen hervorhebt.

Fazit für B2B-Anwendungen

Für Unternehmen im B2B-Sektor signalisiert Qwen3.5-Omni einen wichtigen Schritt in Richtung integrierter, multimodaler KI-Lösungen. Die Fähigkeit, unterschiedlichste Datenformate zu verarbeiten und in Echtzeit zu interagieren, eröffnet neue Potenziale für Anwendungen in Bereichen wie Kundenservice, Content-Erstellung, Datenanalyse und der Entwicklung intelligenter Agenten. Die "emergent capability" des Code-Schreibens aus nicht-textuellen Eingaben deutet zudem auf ein tieferes Verständnis und eine höhere Flexibilität des Modells hin, die zukünftig weitreichende Automatisierungsmöglichkeiten erschließen könnten. Die Verfügbarkeit als API-Dienst ermöglicht eine direkte Integration in bestehende Unternehmenssysteme, wobei die genauen Konditionen und die weitere Entwicklung der offenen Zugänglichkeit abzuwarten bleiben.

Bibliography

- Alibaba Qwen Team Releases Qwen3.5 Omni: A Native Multimodal ... (Asif Razzaq) - Alibaba releases multimodal AI Qwen3.5-Omni: writes code from screen recordings (Sup) - How Qwen3 Omni Cracked the Multimodality Code: From Text to Everything (Jithin Kumar) - Paper page - Qwen3-Omni Technical Report (Jin Xu) - Qwen3 Omni: Revolutionary Native End-to-End Omni-Modal AI | Qwen3-Omni Official (@st) - Qwen3.5 Omni multimodal model for text, audio, video - Facebook - Qwen3.5-Omni: Scaling Up, Toward Native Omni-Modal AGI - Qwen3.5-Omni: What It Is and Why It Matters - Qwen3.5-Omni learned to write code from spoken instructions and ... (Jonathan Kemper) - Qwen3-Omni Technical Report (2509.17765v1)