Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
NVIDIA hat mit der Einführung des Nemotron Nano V2 VL ein neues multimodales Modell vorgestellt, das darauf abzielt, die Fähigkeiten von KI-Systemen im Bereich des Verständnisses komplexer visueller und textueller Informationen zu erweitern. Dieses Modell, das auf einer 12 Milliarden Parameter umfassenden Architektur basiert, ist speziell für Aufgaben wie die Analyse von Dokumenten, das Verständnis von Videos und die Beantwortung visueller Fragen konzipiert. Es repräsentiert eine Weiterentwicklung der Nemotron-Serie und verspricht signifikante Verbesserungen in Bezug auf Genauigkeit und Effizienz.
Im Kern des Nemotron Nano V2 VL steht eine hybride Mamba-Transformer-Architektur. Diese Kombination nutzt die Stärken beider Ansätze: die hohe Genauigkeit, die typischerweise mit Transformer-Modellen assoziiert wird, und die Speichereffizienz der Mamba-Architektur bei der Sequenzmodellierung. Das Ergebnis ist ein Modell, das nicht nur präzise Ergebnisse liefert, sondern auch einen höheren Inferenz-Durchsatz und geringere Latenzzeiten ermöglicht – insbesondere bei der Verarbeitung langer Dokumente und Videosequenzen.
Eine bemerkenswerte Neuerung ist das integrierte Efficient Video Sampling (EVS). Diese Methode ermöglicht es dem Modell, die Anzahl der visuellen Token zu reduzieren, indem temporär statische Bereiche in aufeinanderfolgenden Videobildern identifiziert und beschnitten werden. Dadurch kann das Modell deutlich längere Videos mit geringerer Latenz und reduziertem Speicherverbrauch verarbeiten, ohne architektonische Änderungen oder erneutes Training zu erfordern. Dies führt zu einer bis zu 2,5-fachen Steigerung des Durchsatzes bei minimalem Einfluss auf die Genauigkeit.
Nemotron Nano V2 VL verarbeitet nicht nur Text, sondern auch mehrere Bilder und Videos. Es kann bis zu vier Bilder mit einer Auflösung von jeweils 1k x 2k zusammen mit einem langen Textprompt verarbeiten. Dies ist besonders vorteilhaft für Anwendungsfälle, die eine detaillierte Analyse von Dokumenten, wie Rechnungen oder Handbücher, erfordern. Die Bildverarbeitung erfolgt durch eine Kachelstrategie, bei der Bilder in nicht überlappende Kacheln von 512x512 Pixeln unterteilt werden, ergänzt durch ein Thumbnail zur Erfassung des globalen Bildkontexts.
Das Modell wurde mittels einer mehrstufigen Trainingsstrategie entwickelt. Diese Methode zielt darauf ab, sowohl das visuelle Verständnis zu verbessern als auch die Textverständnisfähigkeiten des zugrunde liegenden Sprachmodells zu erhalten. Das Training umfasst mehrere SFT-Phasen (Supervised Finetuning), beginnend mit der Ausrichtung von Sprach- und Bilddomänen, gefolgt von der Erweiterung der Kontextlänge und der Wiederherstellung der Text-Reasoning-Fähigkeiten.
Nemotron Nano V2 VL wurde auf dem Nemotron VLM Dataset V2 trainiert, das über 8 Millionen Trainingsbeispiele umfasst. Diese Datensammlung beinhaltet eine breite Palette an Aufgaben und Quellen, darunter Bild- und Video-Captioning, visuelle Fragebeantwortung, OCR sowie Dokumenten- und Tabellenextraktion. Es wurden sowohl öffentlich zugängliche als auch intern entwickelte Datensätze verwendet, teilweise angereichert durch synthetisch generierte Daten und Annotierungen von anderen hochleistungsfähigen LLMs.
Das Modell zeigt im Vergleich zu seinem Vorgänger, Llama-3.1-Nemotron-Nano-VL-8B, konsistente Verbesserungen über eine Vielzahl von Benchmarks hinweg. Diese Steigerungen werden auf die verbesserte LLM-Basis, erweiterte und qualitativ hochwertigere Trainingsdatensätze sowie eine optimierte Trainingsmethode zurückgeführt.
Nemotron Nano V2 VL ist besonders prädestiniert für Anwendungen, die ein tiefes Verständnis von Dokumenten und Videos erfordern. Dazu gehören:
Das Modell unterstützt auch die Steuerung des "Reasoning Budgets" während der Inferenz. Dies ermöglicht es, die Genauigkeit in verschiedenen Aufgaben zu optimieren, indem die maximale Anzahl der generierten Tokens angepasst wird. Dies kann besonders nützlich sein, um die Balance zwischen Recheneffizienz und Aufgabenleistung zu finden.
NVIDIA stellt die Modellgewichte des Nemotron Nano V2 VL in verschiedenen Formaten (BF16, FP8, FP4) auf Plattformen wie Hugging Face zur Verfügung. Dies unterstreicht NVIDIAs Engagement für Open-Source-Initiativen und fördert die Forschung und Entwicklung in der KI-Gemeinschaft. Das Modell ist für die Ausführung auf NVIDIA GPU-beschleunigten Systemen optimiert und kann über Inferenz-Engines wie vLLM und TRT-LLM integriert werden. Es ist auch als NVIDIA NIM verfügbar, was eine einfache Bereitstellung auf jeder GPU-beschleunigten Infrastruktur ermöglicht.
NVIDIAs Nemotron Nano V2 VL stellt einen bedeutenden Fortschritt im Bereich der multimodalen KI dar. Durch die Kombination einer innovativen Architektur, effizienter Verarbeitungstechniken und einer umfassenden Trainingsstrategie bietet das Modell eine leistungsstarke Lösung für komplexe Aufgaben im Dokumenten- und Videoverständnis. Die Offenheit des Modells und der zugehörigen Ressourcen fördert zudem die weitere Entwicklung und Anpassung an spezifische Geschäftsanforderungen, was es zu einem wertvollen Werkzeug für Unternehmen macht, die ihre KI-Fähigkeiten erweitern möchten.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen