Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Landschaft der Künstlichen Intelligenz wird kontinuierlich durch Innovationen im Bereich der Sprachmodelle (Large Language Models, LLMs) und deren Optimierung für den praktischen Einsatz geprägt. Eine aktuelle Entwicklung, die in Fachkreisen auf Interesse stößt, ist die Veröffentlichung zweier INT4-quantisierter DeepSeek-V4-Modelle durch Intel AI und DeepSeek AI. Diese Modelle wurden unter Verwendung des AutoRound-Quantisierungsverfahrens optimiert und sollen den effizienten Betrieb der DeepSeek-V4-Architektur auch in Umgebungen ohne spezielle MXFP4-Hardwareunterstützung ermöglichen.
Die Quantisierung ist ein Verfahren, das darauf abzielt, die Größe und den Rechenaufwand von neuronalen Netzen zu reduzieren, indem die Präzision der Modellgewichte von höherwertigen Formaten (z.B. Float16 oder Float32) auf niedrigere Formate wie INT4 (4-Bit Integer) gesenkt wird. Dies führt zu kleineren Modellgrößen und potenziell schnelleren Inferenzzeiten, was besonders für den Einsatz auf Geräten mit begrenzten Ressourcen oder in Edge-Computing-Szenarien von Bedeutung ist. Das AutoRound-Verfahren von Intel ist eine fortschrittliche Quantisierungsmethode, die darauf ausgelegt ist, den durch die Reduzierung der Präzision verursachten Genauigkeitsverlust zu minimieren.
DeepSeek-V4, das zugrunde liegende Modell, bietet ein Kontextfenster von 1 Million Token. Ein derart großes Kontextfenster ist für komplexe Agenten-Anwendungen von entscheidender Bedeutung, da es dem Modell ermöglicht, über lange Interaktionen hinweg kohärent und informativ zu bleiben. Die Effizienz der Kontextverarbeitung ist dabei ein Schlüsselfaktor. DeepSeek-V4 adressiert dies durch eine innovative Architektur, die den Overhead für lange Kontextlängen drastisch reduziert.
Bei der Verarbeitung langer Sequenzen in Transformatoren-Modellen stellt der Key-Value (KV)-Cache eine erhebliche Herausforderung dar. Die Größe des KV-Caches und die Anzahl der Floating-Point-Operationen (FLOPs) pro Token steigen mit der Sequenzlänge. DeepSeek-V4 wurde entwickelt, um diese Probleme zu minimieren. Im Vergleich zu DeepSeek-V3.2 benötigt DeepSeek-V4-Pro nur 27 % der FLOPs für die Single-Token-Inferenz und 10 % des KV-Cache-Speichers bei 1 Million Token. Die Flash-Variante reduziert diese Werte weiter auf 10 % der FLOPs und 7 % des KV-Caches. Dies wird durch eine Kombination aus Architekturanpassungen und Speicheroptimierungen erreicht.
Die Effizienzsteigerung von DeepSeek-V4 resultiert maßgeblich aus der Implementierung zweier neuartiger Aufmerksamkeitstypen, die schichtübergreifend abwechselnd eingesetzt werden:
Die abwechselnde Anwendung von CSA- und HCA-Schichten innerhalb des Modellstapels (z.B. 61 Schichten in V4-Pro) ermöglicht eine flexible Anpassung an unterschiedliche Aufmerksamkeitsmuster und optimiert die Ressourcennutzung. Zusätzlich werden FP8-Speicherformate für die meisten KV-Einträge und FP16 (BF16) nur für spezifische RoPE-Dimensionen verwendet, wobei der Lightning Indexer in FP4 arbeitet. Diese Speicherentscheidungen tragen wesentlich zur Reduzierung des KV-Cache-Bedarfs bei.
Neben den architektonischen Neuerungen wurden auch post-trainingseitige Entscheidungen getroffen, um DeepSeek-V4 speziell für Agenten-Anwendungsfälle zu optimieren:
|DSML| Token und ein XML-basiertes Format für Tool-Aufrufe ein. Dieses XML-Format reduziert Fehler beim Parsen im Vergleich zu JSON-in-String-Ansätzen, insbesondere bei verschachtelten, zitierten Inhalten. Es unterscheidet zwischen String-Parametern und strukturierten Parametern, was eine Klasse von Parsing-Fehlern eliminiert.Die Benchmarking-Ergebnisse von DeepSeek-V4-Pro-Max zeigen eine hohe Konkurrenzfähigkeit, insbesondere in Agenten-spezifischen Aufgaben. Obwohl die Werte für Wissen und Schlussfolgerung solide, aber nicht immer führend sind, übertrifft das Modell in vielen Agenten-Benchmarks etablierte Konkurrenten. Beispielsweise erreicht es im Terminal Bench 2.0 67,9 Punkte, liegt im SWE Verified bei 80,6 gelösten Aufgaben und im MCPAtlas Public bei 73,6. Im internen F&E-Coding-Benchmark erreicht V4-Pro-Max eine Passrate von 67 %.
Die 1M-Kontext-Retrieval-Fähigkeiten sind ebenfalls bemerkenswert, mit einer MRCR 8-Needle-Genauigkeit, die bis zu 256K Token über 0,82 bleibt und selbst bei 1M Token noch 0,59 beträgt.
Die Modelle werden auf Hugging Face bereitgestellt. Es sind vier Checkpoints verfügbar:
deepseek-ai/DeepSeek-V4-Pro (1.6T Gesamtparameter / 49B aktiviert, instruct)deepseek-ai/DeepSeek-V4-Flash (284B Gesamtparameter / 13B aktiviert, instruct)deepseek-ai/DeepSeek-V4-Pro-Base (1.6T Gesamtparameter / 49B aktiviert, base)deepseek-ai/DeepSeek-V4-Flash-Base (284B Gesamtparameter / 13B aktiviert, base)Die Instruct-Modelle unterstützen drei Reasoning-Modi: Non-think (schnell, keine Gedankenketten), Think High (explizites Reasoning in ```think``` Blöcken) und Think Max (maximaler Reasoning-Aufwand mit speziellem System-Prompt). Für den Think Max-Modus wird ein Kontextfenster von mindestens 384K Token empfohlen. Die empfohlenen Sampling-Parameter sind temperature=1.0, top_p=1.0.
Für B2B-Anwender, die an der Implementierung fortgeschrittener KI-Agenten oder an der Verarbeitung sehr langer Textsequenzen interessiert sind, bieten die INT4-quantisierten DeepSeek-V4-Modelle mehrere Vorteile:
Die Veröffentlichung dieser quantisierten Modelle unterstreicht die fortschreitende Demokratisierung leistungsfähiger KI-Technologien. Unternehmen können nun von den Fähigkeiten von DeepSeek-V4 profitieren, ohne in spezifische Hardware investieren zu müssen, die MXFP4 nativ unterstützt. Dies eröffnet neue Möglichkeiten für die Entwicklung und den Einsatz von KI-Lösungen in verschiedenen Branchen.
Es bleibt abzuwarten, wie sich die Community auf das |DSML| Schema und die interleaved thinking-Ansätze einstellt und ob sich die Vorteile auch auf nicht-domänenspezifische Agenten-Frameworks übertragen lassen. Die fortlaufende Forschung und Entwicklung in diesem Bereich wird voraussichtlich zu weiteren Optimierungen und einer breiteren Akzeptanz dieser Technologien führen.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen