Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die rapide Entwicklung von Künstlicher Intelligenz, insbesondere im Bereich der Large Language Models (LLMs), bringt einen stetig wachsenden Bedarf an Rechenleistung mit sich. Um diesen Anforderungen gerecht zu werden und das Training massiver Modelle effizienter zu gestalten, rückt die Quantisierung – die Reduzierung der Präzision von Daten während des Trainings und der Inferenz – immer stärker in den Fokus. Eine aktuelle Veröffentlichung aus dem Jahr 2026 mit dem Titel "Quartet II: Accurate LLM Pre-Training in NVFP4 by Improved Unbiased Gradient Estimation" beschreibt einen signifikanten Fortschritt in diesem Bereich. Die Autoren, darunter Andrei Panferov, Erik Schultheis, Soroush Tabesh und Dan Alistarh, präsentieren eine Methode, die das Potenzial des NVFP4-Formats von NVIDIA Blackwell GPUs voll ausschöpfen soll, um ein akkurates und gleichzeitig effizientes Vortraining von LLMs zu ermöglichen.
Das Training von LLMs ist rechenintensiv. Die Verwendung niedrigerer Präzisionsformate wie NVFP4, das von NVIDIA Blackwell GPUs hardwareseitig unterstützt wird, verspricht erhebliche Effizienzgewinne. Diese Formate ermöglichen eine Beschleunigung der Matrixmultiplikationen (GEMMs) und eine Reduzierung des Speicherbedarfs. Bisherige quantisierte Trainingsmethoden mussten jedoch oft Kompromisse bei der Genauigkeit eingehen. Insbesondere die Schätzung der Gradienten im Rückwärtsdurchlauf ist anfällig für Fehler, die sich über viele Trainingsschritte akkumulieren und die Stabilität sowie die Konvergenz des Modells beeinträchtigen können. Die gängige Methode des stochastischen Rundens (Stochastic Rounding, SR) zur Gewährleistung unverzerrter Gradientenschätzungen führt dabei zu einem merklichen Genauigkeitsverlust im Vergleich zu Standard-FP16- oder FP8-Trainings.
Hier setzt Quartet II an. Die von den Forschenden entwickelte Methode verbessert den Stand der Technik für das quantisierte Training in NVFP4 durch eine neuartige, unverzerrte Quantisierungsroutine für mikroskalierte Formate, genannt MS-EDEN (MicroScaling EDEN). MS-EDEN reduziert den Quantisierungsfehler um mehr als das Doppelte im Vergleich zu SR. Diese Routine wird in ein umfassendes NVFP4-Quantisierungsschema für lineare Schichten integriert, das als Quartet II bezeichnet wird.
Die Autoren von Quartet II haben ihre Methode umfassend validiert. Sie führten End-to-End-LLM-Trainings mit bis zu 1,9 Milliarden Parametern auf 38 Milliarden Tokens durch. Die Ergebnisse zeigen eine deutliche Verbesserung der Genauigkeit im Vergleich zu früheren NVFP4-Methoden, mit einer Reduzierung des Validierungsverlusts um mindestens 20%.
Ein zentraler Aspekt ist die unverzerrte Quantisierung im Rückwärtsdurchlauf. Während frühere Ansätze wie die elementweise stochastische Rundung (SR) Unverzerrtheit auf Kosten erhöhter Varianz erreichten, nutzt MS-EDEN eine andere Strategie. Durch die Kombination von randomisierten Rotationen, wie der Randomized Hadamard Transform (RHT), und einer Korrekturreskalierung, ermöglicht MS-EDEN eine präzisere Schätzung der Gradienten. Die Herausforderung dabei war die Kompatibilität mit der groben Skalendarstellung von NVFP4; MS-EDEN löst dies, indem es die Korrekturfaktoren in die Gruppenskala über stochastische Rundung integriert.
Für den Vorwärtsdurchlauf verwendet Quartet II Round-to-Nearest FP4-Rundung mit nativer NVFP4-Skalierung (ein FP8 E4M3-Skalenfaktor pro 16 Elemente) sowie eine zusätzliche FP32-Skala pro Tensor zur Bereichserweiterung. Dies wird durch eine lokale Skalierungsoption ("Four Over Six") ergänzt, die die Fehlerminimierung im Vorwärtsdurchlauf weiter optimiert. Im Gegensatz zu früheren Ansätzen, die oft eine Quadratblock-Quantisierung der Gewichtstensoren im Vorwärtsdurchlauf verwendeten, um die Wiederverwendung im Rückwärtsdurchlauf zu ermöglichen, setzt Quartet II auf eine Re-Quantisierung der Gewichte und Aktivierungen im Rückwärtsdurchlauf. Dies ist notwendig, da MS-EDEN die Anwendung randomisierter Rotationen entlang der Mikroskalierungsgruppen erfordert.
Die Einführung von Quartet II hat weitreichende Implikationen für die Entwicklung und den Einsatz von LLMs. Die Fähigkeit, große Modelle mit geringerer Präzision zu trainieren, ohne signifikante Genauigkeitsverluste hinnehmen zu müssen, kann die Kosten und den Zeitaufwand für das Training drastisch senken. Dies ist insbesondere für B2B-Anwendungen relevant, wo Effizienz und Skalierbarkeit entscheidend sind.
Die Arbeit an Quartet II zeigt, dass die Optimierung von Quantisierungsstrategien für spezifische Hardwarearchitekturen, wie die NVIDIA Blackwell GPUs, ein vielversprechender Weg ist, um die Grenzen des maschinellen Lernens weiter zu verschieben. Mit der kontinuierlichen Weiterentwicklung von Hardware und Algorithmen wird sich die Effizienz des LLM-Trainings voraussichtlich weiter verbessern, was neue Möglichkeiten für KI-Anwendungen in verschiedenen Branchen eröffnet.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen