Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Landschaft der künstlichen Intelligenz (KI) wird weiterhin von raschen Innovationen geprägt. Ein aktuelles Beispiel hierfür ist die Einführung von Qwen3.5-Omni durch das Alibaba Qwen Team. Dieses multimodale KI-Modell, das in drei Varianten (Plus, Flash und Light) erhältlich ist, demonstriert eine bemerkenswerte Fähigkeit zur Verarbeitung und Generierung von Inhalten über verschiedene Modalitäten hinweg: Text, Bilder, Audio und Video. Eine besonders hervorstechende Entwicklung ist die angeborene Fähigkeit des Modells, aus gesprochenen Anweisungen und Videoinhalten Code zu erstellen, eine Funktion, die nicht explizit trainiert wurde.
Qwen3.5-Omni basiert auf einer sogenannten "Thinker-Talker"-Architektur. Der "Thinker" ist für die Analyse omnimodaler Eingaben und die Generierung von Text zuständig, während der "Talker" diesen Text in kontextbezogene Sprache umwandelt. Beide Komponenten nutzen eine Hybrid-Attention-Mixture-of-Experts (MoE)-Architektur, die das frühere reine MoE-Setup ersetzt. Diese Architekturanpassung zielt darauf ab, die Leistung und Effizienz bei der Verarbeitung komplexer, multimodaler Daten zu optimieren.
Eine zentrale technische Neuerung ist ARIA (Adaptive Rate Interleave Alignment). Diese Technologie ermöglicht eine dynamische Abstimmung und Verschachtelung von Text- und Sprach-Tokens. ARIA wurde entwickelt, um ein bekanntes Problem bei der Sprachausgabe in Echtzeit zu lösen: Die unterschiedlichen Kodierungsraten von Text- und Sprach-Tokens führten oft zu Aussetzern, Fehlern bei der Aussprache oder unverständlichen Zahlen in Streaming-Gesprächen. ARIA soll die Sprachsynthese natürlicher und robuster gestalten, ohne die Echtzeit-Performance zu beeinträchtigen.
Während der Skalierung des omnimodalen Trainings entdeckte das Qwen Team eine sogenannte "emergent capability": Das Modell kann Code direkt aus gesprochenen Anweisungen und Videoinhalten schreiben. Diese Fähigkeit, die als "Audio-Visual Vibe Coding" bezeichnet wird, entstand als Nebenprodukt der nativen multimodalen Skalierung und wurde nicht explizit trainiert. Demonstrationen zeigen, wie Qwen3.5-Omni-Plus beispielsweise ein funktionsfähiges Snake-Spiel basierend auf einer verbalen Beschreibung und einem Videoclip erstellt.
Darüber hinaus ist das Modell in der Lage, Audio- und Videoinhalte detailliert zu beschreiben, wobei die Ausgabe einem Skript ähnelt. Es segmentiert automatisch, fügt sekundengenaue Zeitstempel hinzu und liefert präzise Informationen über Charaktere, Dialoge, Soundeffekte und deren Interaktion. In einem Beispiel analysiert das Modell eine dreiminütige Löwen-Dokumentation Szene für Szene, identifiziert jeden Sprecher, jeden Schnitt und jedes Geräusch. In einer weiteren Demonstration markiert es gewalttätige Szenen in Videospielen für die Inhaltsmoderation und listet diese in einer Tabelle mit Zeitstempeln und Risikostufen auf.
Qwen3.5-Omni-Plus beansprucht den Status als "State of the Art" in 215 Audio- und Audiovisuellen Subaufgaben. Berichten zufolge übertrifft es Googles Gemini 3.1 Pro in der allgemeinen Audioverständnis, Argumentation, Erkennung, Übersetzung und im Dialog. Im audiovisuellen Verständnis erreicht es die Leistung von Gemini 3.1 Pro.
Die Spracherkennung wurde massiv erweitert und unterstützt nun 74 Sprachen sowie 39 chinesische Dialekte, insgesamt 113 Sprachen und Dialekte. Die Vorgängerversion verarbeitete lediglich elf Sprachen. Die Sprachausgabe unterstützt 36 Sprachen und Dialekte mit 55 verfügbaren Stimmen, einschließlich benutzerdefinierter Optionen.
Für Echtzeit-Gespräche bietet Qwen3.5-Omni Funktionen wie "Semantic Interruption", die zwischen Hintergrundgeräuschen und tatsächlichen Sprechabsichten unterscheidet. Das Modell kann eigenständig Web-Suchen durchführen und komplexe Funktionsaufrufe bearbeiten. Benutzer können die Sprachausgabe mittels Sprachbefehlen anpassen, darunter Lautstärke, Tempo und Emotionen.
Im Gegensatz zu früheren Qwen-Veröffentlichungen hat Alibaba die Modellgewichte von Qwen3.5-Omni nicht offen zugänglich gemacht. Das Modell ist derzeit ausschließlich als API-Dienst verfügbar. Dies könnte auf eine strategische Entscheidung hindeuten, die Kontrolle über die Technologie zu behalten und kommerzielle Anwendungen zu fördern.
Die schnelle Veröffentlichung von Modellen durch Alibaba, einschließlich des Vorgängers Qwen3-Omni im April 2025 und der Erweiterung der Qwen 3.5 Textmodellreihe, unterstreicht das hohe Tempo der Entwicklung in diesem Bereich. Diese Entwicklungen finden inmitten interner Umstrukturierungen im Alibaba AI-Team statt, was die strategische Bedeutung von Grundlagenmodellen für das Unternehmen hervorhebt.
Für Unternehmen im B2B-Sektor signalisiert Qwen3.5-Omni einen wichtigen Schritt in Richtung integrierter, multimodaler KI-Lösungen. Die Fähigkeit, unterschiedlichste Datenformate zu verarbeiten und in Echtzeit zu interagieren, eröffnet neue Potenziale für Anwendungen in Bereichen wie Kundenservice, Content-Erstellung, Datenanalyse und der Entwicklung intelligenter Agenten. Die "emergent capability" des Code-Schreibens aus nicht-textuellen Eingaben deutet zudem auf ein tieferes Verständnis und eine höhere Flexibilität des Modells hin, die zukünftig weitreichende Automatisierungsmöglichkeiten erschließen könnten. Die Verfügbarkeit als API-Dienst ermöglicht eine direkte Integration in bestehende Unternehmenssysteme, wobei die genauen Konditionen und die weitere Entwicklung der offenen Zugänglichkeit abzuwarten bleiben.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen