Fortschritte in der Quantisierung von Omni-Modellen durch AutoRound und vLLM-omni

Kategorien:

No items found.

Freigegeben:

March 22, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Der schnelle Überblick

Intel arbeitet aktiv an der Quantisierung von Omni-Modellen mittels AutoRound.
Quantisierung reduziert den Speicherbedarf und beschleunigt die Inferenz von KI-Modellen.
AutoRound zeichnet sich durch hohe Genauigkeit bei niedrigen Bitbreiten und breite Kompatibilität aus.
vLLM-omni integriert AutoRound und weitere Quantisierungsmethoden zur Effizienzsteigerung multimodaler Modelle.
Ein vereinheitlichtes Quantisierungs-Framework in vLLM-omni soll die Implementierung und Nutzung vereinfachen.
Die Forschung konzentriert sich auf die Minimierung von Genauigkeitsverlusten bei gleichzeitig maximaler Effizienz.

Die rapide Entwicklung von Künstlicher Intelligenz, insbesondere im Bereich der großen Sprachmodelle (LLMs) und multimodalen Modelle, stellt Unternehmen vor neue Herausforderungen hinsichtlich der effizienten Bereitstellung und Nutzung dieser Technologien. Ein zentrales Thema in diesem Kontext ist die Modellquantisierung – ein Prozess, der darauf abzielt, den Speicherbedarf und die Rechenanforderungen von KI-Modellen zu reduzieren, ohne dabei signifikante Genauigkeitsverluste hinnehmen zu müssen. Jüngste Ankündigungen von Intel und die fortlaufende Arbeit im vLLM-omni Projekt verdeutlichen die Dynamik in diesem Feld und die Bedeutung für B2B-Anwendungen.

Fortschritte bei der Omni-Modell-Quantisierung mit AutoRound

Intel hat kürzlich bekannt gegeben, intensiv an der Quantisierung von Omni-Modellen mithilfe der eigenen Technologie AutoRound zu arbeiten. Diese Initiative zielt darauf ab, die Leistung und Zugänglichkeit von komplexen, multimodalen KI-Modellen zu verbessern. AutoRound ist eine sogenannte Post-Training Quantization (PTQ)-Methode, die darauf ausgelegt ist, die Rundung und Clipping-Bereiche von Modellgewichten gemeinsam zu optimieren. Dies ermöglicht eine präzise Quantisierung mit niedriger Bitbreite (z.B. INT2 bis INT8) bei minimalem Genauigkeitsverlust. Die Effizienz von AutoRound ist bemerkenswert: Die Quantisierung eines 72B-Modells kann beispielsweise in nur 37 Minuten auf einer A100 GPU im "Light Mode" erfolgen.

Kernvorteile von AutoRound

Die Technologie von Intel bietet mehrere entscheidende Vorteile für die Implementierung von KI-Modellen in Unternehmensumgebungen:

Überragende Genauigkeit bei niedrigen Bitbreiten: AutoRound liefert insbesondere bei 2-Bit-Quantisierung Ergebnisse, die andere Methoden übertreffen, und behauptet auch bei 4-Bit-Quantisierung einen Wettbewerbsvorteil.
Breite Kompatibilität: Die Methode unterstützt eine Vielzahl populärer LLM-Architekturen wie Qwen, LLaMA und DeepSeek sowie über zehn Vision-Language-Modelle (VLMs). Darüber hinaus ist AutoRound mit verschiedenen Hardware-Architekturen kompatibel, darunter CPUs, Intel GPUs und CUDA-fähige Geräte.
Flexible und effiziente Quantisierung: AutoRound benötigt lediglich 200 Abstimmungsschritte und einen kleinen Kalibrierungsdatensatz (bereits ab 128 Samples), um hohe Genauigkeit zu erzielen. Dies führt zu schnelleren Quantisierungszeiten und reduziertem Ressourcenverbrauch.

Das OmniQuant-Framework: Eine tiefere Betrachtung

Die Grundlagen für die fortschrittliche Quantisierung, wie sie von AutoRound praktiziert wird, finden sich in Forschungskonzepten wie OmniQuant. Dieses Framework, das an der University of Hong Kong und im Shanghai AI Laboratory entwickelt wurde, adressiert die Herausforderungen der LLM-Quantisierung durch einen "omnidirektional kalibrierten" Ansatz. OmniQuant setzt auf zwei innovative Komponenten:

Learnable Weight Clipping (LWC): Diese Komponente optimiert die Clipping-Schwellenwerte, um extreme Werte in den Modellgewichten anzupassen. Dadurch wird die Quantisierbarkeit der Gewichte verbessert, ohne die Modellintegrität zu beeinträchtigen.
Learnable Equivalent Transformation (LET): LET verschiebt die Herausforderung der Quantisierung von Aktivierungen auf die Gewichte. Durch das Erlernen von Skalierungsfaktoren und Verschiebungsparametern zwischen den Schichten wird die Gewichtsverteilung so umgeformt, dass sie sich besser quantisieren lässt, während die Netzwerkausgabe unverändert bleibt.

Der zentrale Gedanke hinter OmniQuant ist, dass die während des Trainings erzeugte Gewichtsverteilung nicht unbedingt die optimale für die Quantisierung ist. Durch LWC und LET wird das Modell aktiv auf den Quantisierungsprozess vorbereitet, was zu deutlich besseren Ergebnissen führt als naive Methoden wie Round-to-Nearest (RTN). Ein Beispiel verdeutlicht dies: Während RTN bei 4-Bit-Quantisierung zu einem Genauigkeitsverlust von 40 % führen kann, erreicht OmniQuant bei gleicher Bitbreite einen Verlust von lediglich 3 %.

Integration in vLLM-omni: Ein vereinheitlichter Ansatz

Die Effizienz multimodaler Modelle ist ein entscheidender Faktor für ihre breite Akzeptanz. Das vLLM-omni Projekt, ein Framework für effiziente Inferenz mit Omni-Modalitäts-Modellen, widmet sich dieser Herausforderung aktiv. Angesichts der zunehmenden Größe und Vielfalt der Modelle – von Diffusion-Transformatoren wie Wan2.2 und HunyuanVideo-1.5 bis hin zu Omni-Modellen wie Qwen3-Omni – wird die GPU-Speichernutzung zum Hauptengpass. Quantisierung verspricht hier Abhilfe, indem sie den Speicherverbrauch um 40-50 % (FP8) oder mehr (INT4/GGUF) senkt.

Einheitliches Quantisierungs-Framework

Ein wesentliches Ziel des vLLM-omni Projekts ist die Schaffung eines vereinheitlichten Quantisierungs-Frameworks. Bisher war die Quantisierung in vLLM-omni fragmentiert, mit unterschiedlichen Pfaden für LLM-Textmodelle und OMNI-Diffusion-Wrapper. Dies führte zu Problemen wie der Notwendigkeit modellspezifischen Codes für jede neue Quantisierungsmethode und der Ineffizienz bei mehrstufigen Modellen. Das neue Framework löst diese Probleme, indem es:

Eine Routing-Schicht für die Quantisierung pro Komponente bereitstellt.
Eine Fabrik implementiert, die auf das vollständige Register von vLLM delegiert.
Redundante Wrapper für die Diffusionsquantisierungskonfiguration entfernt.

Dieses Framework ist methoden-, modell- und plattformunabhängig konzipiert. Es enthält keinen spezifischen Code für bestimmte Methoden, Modelle oder Plattformen, wodurch alle über 35 vLLM-Methoden automatisch funktionieren. Dies vereinfacht das Hinzufügen neuer Quantisierungsmethoden und Modelle erheblich und ermöglicht eine konsistente Handhabung der Quantisierung über das gesamte Spektrum der unterstützten KI-Modelle.

Praktische Implikationen und Ausblick

Die aktive Arbeit an der Omni-Modell-Quantisierung mittels AutoRound und die Entwicklung eines vereinheitlichten Quantisierungs-Frameworks in vLLM-omni haben direkte und weitreichende Auswirkungen auf B2B-Anwendungen. Unternehmen können dadurch:

Betriebskosten senken: Durch den reduzierten Speicherbedarf und die schnellere Inferenz können KI-Modelle auf weniger oder kostengünstigerer Hardware betrieben werden.
Skalierbarkeit verbessern: Größere und komplexere Modelle können effizienter eingesetzt werden, was neue Anwendungsfälle und eine breitere Implementierung ermöglicht.
Entwicklungsprozesse beschleunigen: Ein einheitliches Framework vereinfacht die Integration neuer Modelle und Quantisierungsmethoden, was die Entwicklungszyklen verkürzt.
Zugänglichkeit erhöhen: Die Möglichkeit, leistungsstarke Modelle auf weniger ressourcenintensiven Geräten zu betreiben, öffnet den Zugang zu KI-Technologien für ein breiteres Spektrum von Nutzern und Anwendungen.

Die Forschung in diesem Bereich ist weiterhin dynamisch. Es wird erwartet, dass zukünftige Entwicklungen die Genauigkeit bei noch niedrigeren Bitbreiten weiter verbessern und die Kompatibilität mit einer noch größeren Vielfalt an Hardware und Modellarchitekturen erweitern werden. Dies beinhaltet auch die Optimierung von Benchmarks zur präzisen Messung von Qualität und Effizienz der quantisierten Modelle, wie etwa durch LPIPS (Learned Perceptual Image Patch Similarity) für visuelle Modelle.

Die Bestrebungen, die Modellquantisierung zu optimieren, sind ein klares Indiz für den Reifegrad der KI-Technologien und den Fokus auf deren praktische Anwendbarkeit in der realen Welt. Für Unternehmen, die KI-Lösungen implementieren oder entwickeln, bedeutet dies eine kontinuierliche Verbesserung der Effizienz und Leistungsfähigkeit, was letztlich zu einem Wettbewerbsvorteil führen kann.

Bibliography: - [vllm-omni]: Omni Quant Support · Issue #1507 · intel/auto-round · GitHub - [RFC]: Quantization Support · Issue #1854 · vllm-project/vllm-omni - [RFC]: Unified Quantization Framework for all models/all platforms/all methods · Issue #1763 · vllm-project/vllm-omni - From 60GB to 6GB: My Journey Down the Quantization Rabbit Hole (and What I Learned About Om - Introducing AutoRound: Intel’s Advanced Quantization for LLMs and VLMs - [Feature]Add support for models quantized with AutoRound · Pull Request #17850 · vllm-proje - Paper page - OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models - GitHub · Where software is built - Qwen2.5-Omni: Update modeling_qwen2_5_omni.py to fix error when loading quantized weights w - [RFC]: Auto-Detect Quantization Config from Model Checkpoint · Issue #1059 · vllm-project/v