Deepseeks Janus Pro: Fortschritte in der multimodalen KI-Technologie

Kategorien:

No items found.

Freigegeben:

January 29, 2025

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Deepseeks Janus Pro: Ein bedeutender Fortschritt in der multimodalen KI

Das chinesische KI-Unternehmen Deepseek hat mit Janus Pro eine deutlich verbesserte Version seines multimodalen KI-Systems vorgestellt. Janus Pro baut auf seinem Vorgänger auf und zeichnet sich durch verfeinerte Trainingsmethoden, erweiterte Datensätze und größere Modellgrößen aus. Die Verbesserungen betreffen sowohl das Verständnis als auch die Generierung von Bildern und Texten.

Optimierte Trainingsmethoden und erweiterte Datensätze

Deepseek hat die Trainingsmethoden für Janus Pro umfassend überarbeitet, um die Datennutzung zu optimieren. Der Trainingsdatensatz wurde erheblich erweitert und umfasst nun rund 90 Millionen zusätzliche Beispiele für multimodales Verständnis. Diese stammen aus verschiedenen Quellen, darunter YFCC-Bildbeschreibungsdatensätze und spezialisierte Sammlungen zum Verständnis von Tabellen, Diagrammen, Memes und Dokumenten. Für die Bildgenerierung wurden etwa 72 Millionen synthetische Trainingsbeispiele hinzugefügt, einige davon mit Midjourney erstellt. Das Verhältnis von realen zu synthetischen Daten liegt nun bei 1:1.

Größere Modelle für gesteigerte Leistung

Eine der wichtigsten Neuerungen ist die Einführung größerer Modellgrößen. Während die ursprüngliche 1B-Version weiterhin verfügbar ist, gibt es nun eine 7B-Version, die sowohl beim Verständnis als auch bei der Generierung von Bildern eine deutlich bessere Leistung zeigt. In Benchmark-Tests erreichte Janus Pro-7B im MMBench für multimodales Verständnis einen Wert von 79,2, deutlich über den 69,4 des Vorgängers. Obwohl dies einen erheblichen Fortschritt darstellt, schneiden einige konkurrierende Modelle ähnlicher Größe noch besser ab.

Verbesserte Bildgenerierung und Prompt-Verarbeitung

Die deutlichsten Verbesserungen zeigen sich in der Prompt-Verarbeitung. Während die frühere Version mit kurzen Anweisungen und inkonsistenter Bildqualität zu kämpfen hatte, kann Janus Pro nun detaillierte, konsistente Bilder aus kurzen Prompts erstellen und komplexere Anweisungen effektiver verarbeiten. Diese Verbesserungen spiegeln sich auch in den Zahlen wider: Janus Pro erreichte eine Genauigkeit von 80% im GenEval, verglichen mit 61% beim Vorgänger. Es übertraf sogar DALL-E 3 (67%) und Stable Diffusion 3 Medium (74%) in dieser Metrik – obwohl diese Benchmarks nicht die ganze Geschichte über die Bildqualität erzählen, wo beide Konkurrenten in der Regel immer noch bessere Ergebnisse liefern und bessere Modelle verfügbar sind.

Einschränkungen und Ausblick

Eine wesentliche Einschränkung von Janus Pro besteht darin, dass sowohl Eingabe- als auch Ausgabebilder auf 384 x 384 Pixel beschränkt sind. Dies beeinträchtigt die Qualität, insbesondere bei feinen Details wie Gesichtern, und erschwert dem System das Verständnis von Text in Bildern. Das Team geht davon aus, dass zukünftige Versionen mit höherer Auflösung diese Probleme lösen könnten. Obwohl Deepseek nicht bestätigt hat, ob diese Verbesserungen in einer zukünftigen Janus-Version erscheinen werden, ist es wahrscheinlich. Das Unternehmen erlangte kürzlich mit seinem R1-Modell Aufmerksamkeit – einige nannten es den KI-"Sputnik-Moment" für die USA – und gewann neue Kunden. Ein leistungsfähiges multimodales Modell könnte ihnen helfen, effektiver mit OpenAIs ChatGPT zu konkurrieren, vorausgesetzt, sie verfügen über die notwendige Recheninfrastruktur.

Bibliographie: - https://the-decoder.com/deepseeks-janus-pro-is-a-good-upgrade-but-it-wont-fuel-a-us-ai-sputnik-crisis/ - https://www.reuters.com/technology/deepseeks-janus-pro-ai-model-beats-rivals-image-generation-2025-01-27/ - https://fortune.com/2025/01/27/marc-andreessen-deepseek-sputnik-ai-markets/ - https://www.theverge.com/2025/1/27/24353056/deepseek-says-its-newest-ai-model-janus-pro-can-outperform-stable-diffusion-and-dall-e-3 - https://www.mi-3.com.au/27-01-2025/massive-gen-ai-disruption-incoming-deepseekr1-trigger-massive-gen-ai-commoditisation - https://www.yahoo.com/news/chinese-ai-deepseek-jolts-silicon-170807101.html - https://www.wsj.com/tech/ai/deepseek-us-ai-stocks-nvidia-broadcom-6cdfae81 - https://www.nytimes.com/2025/01/27/business/us-stock-market-deepseek-ai-sp500-nvidia.html - https://www.theguardian.com/business/live/2025/jan/28/global-tech-sell-off-trump-deepseek-wake-up-call-us-ai-firms-business-live - https://www.aivanet.com/2025/01/deepseek-everything-you-need-to-know-about-the-ai-that-dethroned-chatgpt/