Veröffentlichung neuer Vision Language Modelle mit einem 78B Flaggschiff-Modell unter MIT-Lizenz

Kategorien:

No items found.

Freigegeben:

December 9, 2024

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Neue InternVL-Modelle veröffentlicht, darunter ein 78B Vision Language Model mit MIT-Lizenz

OpenGVLab hat eine neue Serie von Vision Language Models (VLMs) unter dem Namen InternVL veröffentlicht. Die Modelle kombinieren visuelle und sprachliche Fähigkeiten und ermöglichen so die Verarbeitung und Interpretation von Bildern und Text in Kombination. Besonders hervorzuheben ist das Flaggschiff-Modell mit 78 Milliarden Parametern, das unter der MIT-Lizenz angeboten wird.

Insgesamt umfasst die Veröffentlichung sieben neue VLMs, die auf verschiedenen Kombinationen von Basismodellen aufbauen. Als Grundlage für die Bildverarbeitung dienen die Modelle InternViT 300M und InternViT 6B. Für die Textverarbeitung kommen Qwen2.5 in verschiedenen Größen (0.5B, 3B, 32B, 72B) sowie InternLM2 (7B, 8B, 20B) zum Einsatz. Das größte Modell, InternVL 78B, kombiniert InternViT 6B mit Qwen2.5-72B Instruct.

Vielfältige Anwendungsmöglichkeiten durch Kombination von Bild- und Textverständnis

Vision Language Models ermöglichen eine Vielzahl von Anwendungen, die über die Fähigkeiten reiner Bild- oder Textverarbeitungsmodelle hinausgehen. Durch das kombinierte Verständnis von Bild und Text können VLMs beispielsweise Bilder beschreiben, Fragen zu Bildern beantworten, Bilder anhand von Textbeschreibungen suchen oder sogar neue Bilder basierend auf Texteingaben generieren. Die MIT-Lizenz des 78B-Modells erlaubt eine breite Nutzung und Anpassung für verschiedene Anwendungsfälle, sowohl in der Forschung als auch in kommerziellen Produkten.

Die verschiedenen Modellgrößen bieten Flexibilität bei der Auswahl des passenden Modells für die jeweilige Anwendung. Kleinere Modelle eignen sich für ressourcenbeschränkte Umgebungen oder schnelle Inferenz, während größere Modelle ein höheres Leistungsniveau und komplexere Aufgaben bewältigen können. Die Veröffentlichung der InternVL-Modelle stellt einen wichtigen Schritt in der Entwicklung von leistungsfähigen und vielseitig einsetzbaren VLMs dar und eröffnet neue Möglichkeiten für die Integration von visueller und sprachlicher Information in KI-Anwendungen.

Merve Noyan und Hugging Face

Die Veröffentlichung der InternVL-Modelle wurde unter anderem von Merve Noyan, einer Machine Learning Expertin bei Hugging Face, bekannt gemacht. Noyan ist eine aktive Open-Source-Entwicklerin und Google Developer Expert für Machine Learning und engagiert sich stark in der Community. Sie arbeitet an verschiedenen Projekten im Bereich Zero-Shot-Vision, VLMs, großen multimodalen Modellen und Transformers.

Hugging Face ist eine zentrale Plattform für die Entwicklung und den Austausch von Machine-Learning-Modellen und -Ressourcen. Die Plattform bietet eine umfangreiche Sammlung von vortrainierten Modellen, Datensätzen und Tools, die es Entwicklern ermöglichen, schnell und einfach KI-Anwendungen zu erstellen und zu teilen. Die Veröffentlichung der InternVL-Modelle auf Hugging Face erleichtert den Zugang zu diesen Modellen und fördert die weitere Entwicklung und Anwendung von VLMs in der KI-Community.

Bibliographie: - https://twitter.com/mervenoyann/status/1865411414036259166 - https://huggingface.co/posts/merve/324561624739797 - https://x.com/mervenoyann - https://huggingface.co/merve - https://twitter.com/mervenoyann - https://github.com/merveenoyan - https://mobile.x.com/mervenoyann/highlights