Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Landschaft der Künstlichen Intelligenz (KI) wird kontinuierlich durch Innovationen im Bereich der multimodalen Modelle erweitert. Eine aktuelle Entwicklung, die für Fachleute in der KI-Branche von besonderem Interesse ist, ist die Veröffentlichung des Trainingscodes für NEO durch das EvolvingLMMs-Lab. NEO ist ein natives Vision-Language-Modell (VLM), das einen neuen Ansatz für die Integration von visuellen und sprachlichen Informationen verfolgt.
Vision-Language-Modelle haben in den letzten Jahren erhebliche Fortschritte gemacht und ermöglichen es KI-Systemen, sowohl Bilder als auch Text zu verarbeiten und miteinander in Beziehung zu setzen. Traditionell wurden in diesem Bereich häufig modulare Architekturen eingesetzt, bei denen separate Encoder für visuelle und sprachliche Daten verwendet und deren Ausgaben anschließend zusammengeführt wurden. NEO verfolgt hingegen einen "nativen" Ansatz.
Der Unterschied zwischen nativen und modularen VLMs liegt primär in ihrer Architektur:
Die Motivation hinter nativen VLMs ist es, die Beschränkungen modularer Ansätze zu überwinden, die oft mit Komplexität bei der Integration und potenziellen Inkonsistenzen in der Repräsentation einhergehen können. Durch eine von Grund auf integrierte Architektur sollen effizientere und kohärentere multimodale Repräsentationen erzielt werden.
NEO wurde vom EvolvingLMMs-Lab entwickelt und demonstriert einen vielversprechenden Weg für die Entwicklung skalierbarer und leistungsstarker nativer VLMs. Die zugrundeliegende Forschung wurde in einem prägnanten Paper mit dem Titel "From Pixels to Words -- Towards Native Vision-Language Primitives at Scale" vorgestellt.
Ein Kernmerkmal von NEO ist seine native Architektur, die eine einheitliche Kodierung, Ausrichtung und logische Verarbeitung von Pixel- und Wortdaten innerhalb eines einzigen, dichten Modells ermöglicht. Dies unterscheidet es von vielen anderen VLMs, die auf modularen Ansätzen basieren.
Ein bemerkenswerter Aspekt von NEO ist seine überlegene Trainingseffizienz. Obwohl es nur mit etwa 390 Millionen Bild-Text-Beispielen trainiert wurde, entwickelt NEO eine starke visuelle Wahrnehmungsfähigkeit von Grund auf. Diese Leistung kann mit der von führenden modularen VLMs konkurrieren und übertrifft andere native Ansätze.
Das Projekt legt zudem Wert auf einen vielversprechenden Fahrplan für skalierbare und leistungsstarke native VLMs. Es werden diverse wiederverwendbare Komponenten bereitgestellt, die ein kosteneffizientes und erweiterbares Ökosystem fördern sollen.
Das EvolvingLMMs-Lab hat mehrere Varianten von NEO-Modellen mit 2 Milliarden (2B) und 9 Milliarden (9B) Parametern veröffentlicht. Diese sind in verschiedenen Trainingsstadien verfügbar:
Diese Modelle sind über Hugging Face zugänglich, was die Zugänglichkeit und die Möglichkeit zur experimentellen Nutzung für die Community erhöht.
In Benchmark-Tests zeigt NEO eine konkurrenzfähige Leistung über verschiedene Aufgaben hinweg. Insbesondere in der Kategorie der nativen VLMs mit 2B und 8B Parametern erzielt NEO in mehreren Metriken, wie MMMU, MMB, SEED_I und DocVQA, hohe Werte, die in einigen Fällen die Ergebnisse modularer VLMs erreichen oder übertreffen. Dies deutet darauf hin, dass der native Ansatz von NEO in der Lage ist, trotz effizienterer Trainingsdaten und einer integrierten Architektur eine hohe Leistungsfähigkeit zu erzielen.
Die Entscheidung, den Trainingscode von NEO quelloffen zur Verfügung zu stellen, ist ein wichtiger Schritt für die KI-Community. Der Code ist auf GitHub unter einer Apache-2.0-Lizenz verfügbar, was die Nutzung und Weiterentwicklung fördert.
Die Bereitstellung des Codes und der Modelle ermöglicht es Forschern und Entwicklern, die Architektur von NEO zu untersuchen, eigene Experimente durchzuführen und auf dieser Grundlage neue multimodale KI-Anwendungen zu entwickeln. Dies trägt zur Demokratisierung der Forschung im Bereich der nativen VLMs bei und kann die Innovationsgeschwindigkeit erheblich beschleunigen.
Für Unternehmen, die im Bereich der KI-gestützten Inhaltsgenerierung, Bildanalyse oder visuellen Fragestellung tätig sind, bietet NEO potenzielle Vorteile. Die native Architektur könnte zu effizienteren und robusteren multimodalen Systemen führen, die eine tiefere Integration von visuellen und sprachlichen Informationen ermöglichen. Dies ist besonders relevant für Anwendungen, die ein kohärentes Verständnis komplexer Inhalte erfordern, bei denen Text und Bild untrennbar miteinander verbunden sind.
Die Veröffentlichung von NEO unterstreicht den anhaltenden Trend zur Entwicklung leistungsstärkerer und effizienterer Vision-Language-Modelle. Es zeigt, dass der native Ansatz, der eine tiefere Integration von Modalitäten anstrebt, ein vielversprechendes Forschungsgebiet darstellt.
Die Community wird nun die Möglichkeit haben, die Stärken und Schwächen von NEO in der Praxis zu testen und zu bewerten. Die bereitgestellten Trainings- und Evaluierungs-Kits erleichtern diesen Prozess und könnten zu einer Welle von Weiterentwicklungen und Anpassungen führen. Es bleibt abzuwarten, wie sich dieser native Ansatz im Vergleich zu den etablierten modularen Architekturen langfristig positionieren wird und welche neuen Anwendungsfelder sich daraus ergeben.
Die fortlaufende Entwicklung und Open-Source-Verfügbarkeit solcher Modelle sind entscheidend für den Fortschritt der KI. Sie ermöglichen es einer breiteren Gemeinschaft, an der Gestaltung und Verbesserung dieser Technologien teilzuhaben und deren Potenzial für vielfältige reale Anwendungen zu erschließen.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen