Alibaba Cloud hat kürzlich die neueste Version seines visuellen Sprachmodells, Qwen2-VL, vorgestellt. Dieses Modell setzt neue Maßstäbe in der Analyse von visuellen Inhalten und bietet herausragende Fähigkeiten zur Verarbeitung von Bildern und Videos. Besonders beeindruckend ist die Fähigkeit des Modells, Videos von mehr als 20 Minuten Länge zu analysieren und darauf basierend Fragen zu beantworten, Dialoge zu führen oder Inhalte zu generieren.
Eine der herausragenden Funktionen von Qwen2-VL ist seine Fähigkeit, Videos von mehr als 20 Minuten Länge zu analysieren. Dies eröffnet neue Möglichkeiten in Bereichen wie Online-Lernen, technischer Support und jede andere Situation, in der ein tiefes Verständnis von Videoinhalten erforderlich ist. Qwen2-VL kann nicht nur Videos zusammenfassen und Fragen dazu beantworten, sondern auch in Echtzeit mit Benutzern kommunizieren und so als persönlicher Assistent fungieren.
Das Modell ist darauf ausgelegt, als visueller Agent zu arbeiten, der sich in Geräte wie Mobiltelefone oder Roboter integrieren lässt. Es kann visuelle Informationen und Textanweisungen nutzen, um komplexe Schlussfolgerungen zu ziehen, Entscheidungen zu treffen und automatisierte Aktionen durchzuführen. Dies macht Qwen2-VL zu einem äußerst vielseitigen Werkzeug, das in einer Vielzahl von Anwendungen eingesetzt werden kann.
Qwen2-VL versteht nicht nur Englisch und Chinesisch, sondern auch Text in Bildern in vielen anderen Sprachen, darunter die meisten europäischen Sprachen, Japanisch, Koreanisch, Arabisch und Vietnamesisch. Diese breite Sprachunterstützung macht das Modell für Benutzer weltweit zugänglich und nützlich.
Qwen2-VL ist in drei Größen erhältlich: 2, 7 und 72 Milliarden Parameter. Die Versionen mit 2 und 7 Milliarden Parametern sind als Open Source verfügbar und können auf GitHub und Hugging Face unter der Apache 2.0-Lizenz heruntergeladen werden. Die größte Version mit 72 Milliarden Parametern wird über eine API auf der DashScope-Plattform von Alibaba angeboten, für die eine Registrierung und ein API-Schlüssel erforderlich sind.
Qwen2-VL nutzt ein Visual Transformer (ViT) Modell mit etwa 600 Millionen Parametern, das speziell für die Verarbeitung von Bild- und Videoeingaben entwickelt wurde. Die Einführung der Naive Dynamic Resolution-Technologie ermöglicht es dem Modell, Bilder in beliebiger Auflösung zu verarbeiten. Darüber hinaus sorgt das Multimodal Rotational Position Embedding (M-ROPE) System dafür, dass das Modell Positionierungsinformationen über Text, Bilder und Videos hinweg erfasst und integriert.
Qwen2-VL erzielt führende Ergebnisse in mehreren visuellen Verständnis-Benchmarks, darunter MathVista, DocVQA, RealWorldQA und MTVQA. Diese Benchmarks testen die Fähigkeit des Modells, komplexe mathematische Probleme zu lösen, Dokumente zu verstehen und multilinguale Texte in Bildern zu erkennen.
Die Open-Source-Versionen von Qwen2-VL-2B und Qwen2-VL-7B sind unter der Apache 2.0-Lizenz verfügbar und in Drittanbieter-Frameworks wie Hugging Face Transformers integriert. Die größte Version, Qwen2-VL-72B, kann über eine API genutzt werden und eignet sich für Anwendungsszenarien, die größere Modellfähigkeiten erfordern.
Mit der Veröffentlichung von Qwen2-VL hat Alibaba Cloud einen bedeutenden Schritt in der Entwicklung von visuellen Sprachmodellen gemacht. Die Fähigkeit, Videos von mehr als 20 Minuten Länge zu analysieren, kombiniert mit der breiten Sprachunterstützung und der Integration in verschiedene Geräte, macht Qwen2-VL zu einem leistungsstarken Werkzeug für eine Vielzahl von Anwendungen. Entwickler und Forscher sind eingeladen, diese fortschrittlichen Technologien zu erkunden und die neuen Möglichkeiten zu nutzen, die sie bieten.
Entdecken Sie die Vorteile gegenüber ChatGPT Plus
Sie nutzen bereits ChatGPT Plus? Das ist ein guter Anfang! Aber stellen Sie sich vor, Sie hätten Zugang zu allen führenden KI-Modellen weltweit, könnten mit Ihren eigenen Dokumenten arbeiten und nahtlos im Team kollaborieren.
Die professionelle KI-Plattform für Unternehmen – leistungsstärker, flexibler und sicherer als ChatGPT Plus. Mit über 50 Modellen, DSGVO-konformer Infrastruktur und tiefgreifender Integration in Unternehmensprozesse.
❌ Kein strukturierter Dokumentenvergleich
❌ Keine Bearbeitung im Dokumentkontext
❌ Keine Integration von Unternehmenswissen
✅ Gezielter Dokumentenvergleich mit Custom-Prompts
✅ Kontextbewusste Textbearbeitung im Editor
✅ Wissensbasierte Analyse & Zusammenfassungen
Erstellen Sie leistungsstarke Wissensdatenbanken aus Ihren Unternehmensdokumenten.Mindverse Studio verknüpft diese direkt mit der KI – für präzise, kontextbezogene Antworten auf Basis Ihres spezifischen Know-hows.DSGVO-konform, transparent und jederzeit nachvollziehbar.
❌ Nur ein Modellanbieter (OpenAI)
❌ Keine Modellauswahl pro Use Case
❌ Keine zentrale Modellsteuerung für Teams
✅ Zugriff auf über 50 verschiedene KI-Modelle
✅ Modellauswahl pro Prompt oder Assistent
✅ Zentrale Steuerung auf Organisationsebene
❌ Keine echte Teamkollaboration
❌ Keine Rechte- oder Rollenverteilung
❌ Keine zentrale Steuerung oder Nachvollziehbarkeit
✅ Teamübergreifende Bearbeitung in Echtzeit
✅ Granulare Rechte- und Freigabeverwaltung
✅ Zentrale Steuerung & Transparenz auf Organisationsebene
Nutzen Sie Mindverse Studio als zentrale Plattform für abteilungsübergreifende Zusammenarbeit.Teilen Sie Wissen, erstellen Sie gemeinsame Workflows und integrieren Sie KI nahtlos in Ihre täglichen Prozesse – sicher, skalierbar und effizient.Mit granularen Rechten, transparenter Nachvollziehbarkeit und Echtzeit-Kollaboration.
Sehen Sie Mindverse Studio in Aktion. Buchen Sie eine persönliche 30-minütige Demo.
🎯 Kostenlose Demo buchenLernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen