Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Landschaft der Künstlichen Intelligenz (KI) entwickelt sich rasant weiter, und mit ihr die Anforderungen an die zugrunde liegende Infrastruktur. Unternehmen suchen stetig nach Wegen, die Leistung ihrer KI-Anwendungen zu optimieren und gleichzeitig die Betriebskosten zu senken. In diesem Kontext haben Google Cloud, Intel und Hugging Face eine bemerkenswerte Zusammenarbeit vorgestellt, die eine signifikante Verbesserung des Total Cost of Ownership (TCO) für Large Language Models (LLMs) aufzeigt. Im Mittelpunkt dieser Entwicklung stehen die Google Cloud C4 Virtual Machines (VMs), die mit Intel Xeon 6 Prozessoren ausgestattet sind.
Künstliche Intelligenz, insbesondere im Bereich der Sprachmodelle, verändert die Art und Weise, wie Unternehmen agieren. Von der Mustererkennung bis zur Sprachverarbeitung lösen KI-Anwendungen komplexe Geschäftsprobleme und eröffnen neue Möglichkeiten. Diese Workloads erfordern jedoch erhebliche Rechenressourcen und müssen ein hohes Leistungsniveau erbringen, um effektive Ergebnisse zu liefern. Eine populäre Methode, dies zu erreichen, ist die Nutzung von Public Cloud-Diensten, die eine schnelle Bereitstellung und Skalierbarkeit der Ressourcen ermöglichen. Allerdings können die Betriebskosten in der Cloud schnell ansteigen, was die sorgfältige Auswahl der passenden VM-Typen unabdingbar macht.
Die Google Cloud C4 VMs basieren auf den neuesten Intel Xeon 6 Prozessoren (Codename Granite Rapids, GNR). Diese Prozessoren sind darauf ausgelegt, die KI-Leistung zu steigern und gleichzeitig die Gesamtkosten zu optimieren. In einer gemeinsamen Benchmark-Studie von Intel und Hugging Face wurde die Leistung dieser neuen VM-Serie, insbesondere für die Textgenerierung mit OpenAI GPT OSS LLMs, untersucht.
GPT OSS ist eine Familie von Open-Source-Modellen mit der Architektur "Mixture of Experts" (MoE). Ein MoE-Modell verwendet spezialisierte "Experten"-Subnetzwerke und ein "Gating Network", um zu entscheiden, welche Experten für eine bestimmte Eingabe verwendet werden sollen. Dies ermöglicht eine effiziente Skalierung der Modellkapazität, ohne dass die Rechenkosten linear steigen. Zudem fördert es die Spezialisierung, da verschiedene Experten unterschiedliche Fähigkeiten erlernen und sich an vielfältige Datenverteilungen anpassen können. Obwohl diese Modelle sehr viele Parameter besitzen, wird pro Token nur eine kleine Untergruppe von Experten aktiviert, was die Inferenz auf CPUs praktikabel macht.
Die Zusammenarbeit zwischen Intel und Hugging Face führte zu einer entscheidenden Optimierung der Expertenausführung (PR #40304 im Hugging Face Transformers Repository). Diese Optimierung beseitigt redundante Berechnungen, bei denen jeder Experte alle Tokens verarbeitet. Stattdessen wird jeder Experte nur auf die ihm zugewiesenen Tokens angewendet, wodurch unnötige Rechenschritte entfallen und die Auslastung verbessert wird.
Die Benchmarks konzentrierten sich auf die Dekodierungsleistung (Latenz pro Token) und den normalisierten End-to-End-Durchsatz bei steigender Batch-Größe, während die Sequenzlängen konstant gehalten wurden. Alle Tests verwendeten einen statischen KV-Cache und SDPA-Attention für deterministische Ergebnisse.
Die C4 Instanzen mit Intel Xeon 6 Prozessoren zeigten durchweg eine überlegene Leistung gegenüber den C3 Instanzen. Insbesondere wurde eine Verbesserung des TCO um das 1,7-fache erzielt. Dies bedeutet, dass für das gleiche Volumen generierter Tokens die C3 VMs etwa das 1,7-fache der Kosten verursachen würden. Die C4 Instanzen lieferten eine 1,4- bis 1,7-fach höhere normalisierte Durchsatzleistung pro vCPU im Vergleich zu den C3 Instanzen, was sich direkt in niedrigeren Kosten pro Stunde bei gleicher Leistung niederschlägt.
Die Google Cloud C4 VMs, angetrieben von Intel Xeon 6 Prozessoren, bieten sowohl beeindruckende Leistungssteigerungen als auch eine verbesserte Kosteneffizienz für die Inferenz großer MoE-Modelle. Für die GPT OSS MoE-Inferenz wurden ein höherer Durchsatz, eine geringere Latenz und reduzierte Kosten beobachtet. Diese Ergebnisse unterstreichen, dass dank gezielter Framework-Optimierungen von Intel und Hugging Face große MoE-Modelle effizient auf General-Purpose-CPUs der nächsten Generation betrieben werden können. Für Unternehmen, die ihre KI-Workloads in der Cloud optimieren möchten, stellen die C4 VMs eine attraktive Option dar, um die Leistung zu maximieren und gleichzeitig die Betriebskosten zu kontrollieren.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen