Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
OpenGVLab hat eine neue Serie von Vision Language Models (VLMs) unter dem Namen InternVL veröffentlicht. Die Modelle kombinieren visuelle und sprachliche Fähigkeiten und ermöglichen so die Verarbeitung und Interpretation von Bildern und Text in Kombination. Besonders hervorzuheben ist das Flaggschiff-Modell mit 78 Milliarden Parametern, das unter der MIT-Lizenz angeboten wird.
Insgesamt umfasst die Veröffentlichung sieben neue VLMs, die auf verschiedenen Kombinationen von Basismodellen aufbauen. Als Grundlage für die Bildverarbeitung dienen die Modelle InternViT 300M und InternViT 6B. Für die Textverarbeitung kommen Qwen2.5 in verschiedenen Größen (0.5B, 3B, 32B, 72B) sowie InternLM2 (7B, 8B, 20B) zum Einsatz. Das größte Modell, InternVL 78B, kombiniert InternViT 6B mit Qwen2.5-72B Instruct.
Vision Language Models ermöglichen eine Vielzahl von Anwendungen, die über die Fähigkeiten reiner Bild- oder Textverarbeitungsmodelle hinausgehen. Durch das kombinierte Verständnis von Bild und Text können VLMs beispielsweise Bilder beschreiben, Fragen zu Bildern beantworten, Bilder anhand von Textbeschreibungen suchen oder sogar neue Bilder basierend auf Texteingaben generieren. Die MIT-Lizenz des 78B-Modells erlaubt eine breite Nutzung und Anpassung für verschiedene Anwendungsfälle, sowohl in der Forschung als auch in kommerziellen Produkten.
Die verschiedenen Modellgrößen bieten Flexibilität bei der Auswahl des passenden Modells für die jeweilige Anwendung. Kleinere Modelle eignen sich für ressourcenbeschränkte Umgebungen oder schnelle Inferenz, während größere Modelle ein höheres Leistungsniveau und komplexere Aufgaben bewältigen können. Die Veröffentlichung der InternVL-Modelle stellt einen wichtigen Schritt in der Entwicklung von leistungsfähigen und vielseitig einsetzbaren VLMs dar und eröffnet neue Möglichkeiten für die Integration von visueller und sprachlicher Information in KI-Anwendungen.
Die Veröffentlichung der InternVL-Modelle wurde unter anderem von Merve Noyan, einer Machine Learning Expertin bei Hugging Face, bekannt gemacht. Noyan ist eine aktive Open-Source-Entwicklerin und Google Developer Expert für Machine Learning und engagiert sich stark in der Community. Sie arbeitet an verschiedenen Projekten im Bereich Zero-Shot-Vision, VLMs, großen multimodalen Modellen und Transformers.
Hugging Face ist eine zentrale Plattform für die Entwicklung und den Austausch von Machine-Learning-Modellen und -Ressourcen. Die Plattform bietet eine umfangreiche Sammlung von vortrainierten Modellen, Datensätzen und Tools, die es Entwicklern ermöglichen, schnell und einfach KI-Anwendungen zu erstellen und zu teilen. Die Veröffentlichung der InternVL-Modelle auf Hugging Face erleichtert den Zugang zu diesen Modellen und fördert die weitere Entwicklung und Anwendung von VLMs in der KI-Community.
Bibliographie: - https://twitter.com/mervenoyann/status/1865411414036259166 - https://huggingface.co/posts/merve/324561624739797 - https://x.com/mervenoyann - https://huggingface.co/merve - https://twitter.com/mervenoyann - https://github.com/merveenoyan - https://mobile.x.com/mervenoyann/highlightsLernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen