Fortschritte in der multimodalen KI: Einführung von Apple AIMv2 und Jina CLIP v2

Kategorien:

No items found.

Freigegeben:

November 24, 2024

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Neue Fortschritte im Bereich der multimodalen KI: Apple AIMv2 und Jina CLIP v2

Die Welt der Künstlichen Intelligenz (KI) entwickelt sich rasant weiter, insbesondere im Bereich der multimodalen KI, die verschiedene Datenmodalitäten wie Text und Bilder kombiniert. In den letzten Tagen wurden zwei bemerkenswerte Fortschritte in diesem Bereich erzielt: Apple hat AIMv2 vorgestellt und Jina AI hat Jina CLIP v2 veröffentlicht. Beide Modelle versprechen, die Interaktion zwischen Text und Bild zu revolutionieren und neue Möglichkeiten für Entwickler und Unternehmen zu eröffnen.

Apple AIMv2: Visuelle Encodierer der Spitzenklasse

Apple hat mit AIMv2 eine neue Familie von Vision-Modellen vorgestellt, die mit einem multimodalen autoregressiven Ziel vortrainiert wurden. AIMv2 baut auf dem Vorgängermodell AIMv1 auf, erweitert dieses jedoch um gemeinsame visuelle und textuelle Ziele. Das Training von AIMv2 ist laut Apple einfach und skalierbar. Besonders hervorzuheben ist, dass AIMv2-3B eine Genauigkeit von 89,5% auf ImageNet mit einem eingefrorenen Trunk erreicht.

Die wichtigsten Merkmale von AIMv2 sind:

- Übertrifft OAI CLIP und SigLIP bei den meisten multimodalen Verständnis-Benchmarks. - Übertrifft DINOv2 bei der Open-Vocabulary-Objekterkennung und dem Verständnis von Referenzausdrücken. - Hervorragende Erkennungsleistung.

Apple stellt der Community vortrainierte Checkpoints von AIMv2 mit unterschiedlichen Kapazitäten und Trainingsauflösungen zur Verfügung. Diese sind über Hugging Face zugänglich.

Jina CLIP v2: Multilinguale multimodale Einbettungen

Jina AI hat mit Jina CLIP v2 ein neues multilingual-multimodales Einbettungsmodell veröffentlicht. Das Modell mit 0,9 Milliarden Parametern unterstützt 89 Sprachen, eine Bildauflösung von 512x512 und Matrjoschka-Repräsentationen. Jina CLIP v2 baut auf Jina CLIP v1 und den kürzlich veröffentlichten Jina Embeddings v3 auf und bietet mehrere wichtige Verbesserungen:

- Verbesserte Leistung: v2 zeigt eine 3%ige Leistungsverbesserung gegenüber v1 sowohl bei Text-Bild- als auch bei Text-Text-Retrieval-Aufgaben. - Mehrsprachiger Support: v2 unterstützt 89 Sprachen für das multilingual-image Retrieval und zeigt eine Verbesserung von bis zu 4% im Vergleich zu nllb-clip-large-siglip. - Höhere Bildauflösung: v2 unterstützt jetzt eine Eingabebildauflösung von 512x512, eine deutliche Steigerung gegenüber den 224x224 von v1. - Matrjoschka-Repräsentationen: v2 ermöglicht es Benutzern, die Ausgabe-Dimensionen von Text- und Bildeinbettungen von 1024 auf 64 zu reduzieren.

Jina CLIP v2 kombiniert einen Text-Encoder (Jina XLM-RoBERTa, 561 Millionen Parameter) und einen Bild-Encoder (EVA02-L14, 304 Millionen Parameter). Der Text-Encoder wird auch in Jina Embeddings v3 verwendet. Die beiden Encoder werden gemeinsam trainiert, um ausgerichtete Repräsentationen von Bildern und Text zu erstellen.

Ein besonderes Merkmal von Jina CLIP v2 sind die Matrjoschka-Repräsentationen. Diese ermöglichen eine erhebliche Reduzierung der Dimensionalität der Einbettungen, ohne die Leistung wesentlich zu beeinträchtigen. So führt eine Komprimierung von 1024 auf 64 Dimensionen (94% Reduktion) bei der Bildklassifizierung nur zu einem Rückgang der Top-5-Genauigkeit um 8% und der Top-1-Genauigkeit um 12,5%.

Jina CLIP v2 ist über die Jina AI Embedding API, AWS, Azure und GCP kommerziell verfügbar.

Fazit

Sowohl Apple AIMv2 als auch Jina CLIP v2 stellen wichtige Fortschritte im Bereich der multimodalen KI dar. AIMv2 beeindruckt mit seiner Leistung bei verschiedenen Benchmarks und seiner Skalierbarkeit. Jina CLIP v2 hingegen überzeugt durch seine Mehrsprachigkeit, die hohe Bildauflösung und die effizienten Matrjoschka-Repräsentationen. Beide Modelle eröffnen spannende neue Möglichkeiten für die Entwicklung innovativer Anwendungen, die Text und Bilder intelligent miteinander verknüpfen.

Bibliographie https://jina.ai/news/jina-clip-v2-multilingual-multimodal-embeddings-for-text-and-images/ https://www.marktechpost.com/2024/11/22/jina-ai-introduces-jina-clip-v2-a-0-9b-multilingual-multimodal-embedding-model-that-connects-image-with-text-in-89-languages/ https://twitter.com/JinaAI_/status/1859659765892411462 https://twitter.com/JinaAI_/status/1859659764281782420 https://huggingface.co/jinaai/jina-clip-v2 https://github.com/apple/ml-aim https://jina.ai/news/ https://www.youtube.com/watch?v=yV9pbFN227M