KI für Ihr Unternehmen – Jetzt Demo buchen

Effizienzsteigerung durch Google Cloud C4 VMs mit Intel Xeon 6 für KI-Workloads

Kategorien:
No items found.
Freigegeben:
October 17, 2025

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

1
🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

2
🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

3
⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

4
🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

5
👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Inhaltsverzeichnis

    mindverse studio – Ihre Plattform für digitale Effizienz

    Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.
    Mehr über Mindverse Studio erfahren

    Das Wichtigste in Kürze

    • Google Cloud C4 VMs mit Intel Xeon 6 Prozessoren bieten eine signifikante Effizienzsteigerung und Kostensenkung für KI-Workloads.
    • Insbesondere bei der Textgenerierung mit OpenAI GPT OSS Large Language Models (LLMs) wurde eine Verbesserung des Total Cost of Ownership (TCO) um das 1,7-fache gegenüber der vorherigen Generation (C3 VMs mit Intel Xeon 4 Prozessoren) festgestellt.
    • Die C4 Instanzen erreichen eine um 1,4- bis 1,7-fach höhere Normalisierte Durchsatzleistung pro vCPU.
    • Diese Optimierungen resultieren aus der Zusammenarbeit von Intel und Hugging Face, die gezielte Framework-Optimierungen zur Effizienzsteigerung von MoE-Modellen auf General-Purpose-CPUs umgesetzt haben.
    • Die Benchmarks wurden unter kontrollierten Bedingungen durchgeführt, um architektonische Unterschiede und die Effizienz der MoE-Ausführung zu isolieren.

    KI-Optimierung: Google Cloud C4 VMs erreichen 70% TCO-Verbesserung für GPT OSS mit Intel und Hugging Face

    Die Landschaft der Künstlichen Intelligenz (KI) entwickelt sich rasant weiter, und mit ihr die Anforderungen an die zugrunde liegende Infrastruktur. Unternehmen suchen stetig nach Wegen, die Leistung ihrer KI-Anwendungen zu optimieren und gleichzeitig die Betriebskosten zu senken. In diesem Kontext haben Google Cloud, Intel und Hugging Face eine bemerkenswerte Zusammenarbeit vorgestellt, die eine signifikante Verbesserung des Total Cost of Ownership (TCO) für Large Language Models (LLMs) aufzeigt. Im Mittelpunkt dieser Entwicklung stehen die Google Cloud C4 Virtual Machines (VMs), die mit Intel Xeon 6 Prozessoren ausgestattet sind.

    Die Herausforderung der KI-Skalierung und Kostenoptimierung

    Künstliche Intelligenz, insbesondere im Bereich der Sprachmodelle, verändert die Art und Weise, wie Unternehmen agieren. Von der Mustererkennung bis zur Sprachverarbeitung lösen KI-Anwendungen komplexe Geschäftsprobleme und eröffnen neue Möglichkeiten. Diese Workloads erfordern jedoch erhebliche Rechenressourcen und müssen ein hohes Leistungsniveau erbringen, um effektive Ergebnisse zu liefern. Eine populäre Methode, dies zu erreichen, ist die Nutzung von Public Cloud-Diensten, die eine schnelle Bereitstellung und Skalierbarkeit der Ressourcen ermöglichen. Allerdings können die Betriebskosten in der Cloud schnell ansteigen, was die sorgfältige Auswahl der passenden VM-Typen unabdingbar macht.

    Die Rolle der C4 VMs und Intel Xeon 6 Prozessoren

    Die Google Cloud C4 VMs basieren auf den neuesten Intel Xeon 6 Prozessoren (Codename Granite Rapids, GNR). Diese Prozessoren sind darauf ausgelegt, die KI-Leistung zu steigern und gleichzeitig die Gesamtkosten zu optimieren. In einer gemeinsamen Benchmark-Studie von Intel und Hugging Face wurde die Leistung dieser neuen VM-Serie, insbesondere für die Textgenerierung mit OpenAI GPT OSS LLMs, untersucht.

    OpenAI GPT OSS: Einblick in die Architektur

    GPT OSS ist eine Familie von Open-Source-Modellen mit der Architektur "Mixture of Experts" (MoE). Ein MoE-Modell verwendet spezialisierte "Experten"-Subnetzwerke und ein "Gating Network", um zu entscheiden, welche Experten für eine bestimmte Eingabe verwendet werden sollen. Dies ermöglicht eine effiziente Skalierung der Modellkapazität, ohne dass die Rechenkosten linear steigen. Zudem fördert es die Spezialisierung, da verschiedene Experten unterschiedliche Fähigkeiten erlernen und sich an vielfältige Datenverteilungen anpassen können. Obwohl diese Modelle sehr viele Parameter besitzen, wird pro Token nur eine kleine Untergruppe von Experten aktiviert, was die Inferenz auf CPUs praktikabel macht.

    Gezielte Optimierungen für mehr Effizienz

    Die Zusammenarbeit zwischen Intel und Hugging Face führte zu einer entscheidenden Optimierung der Expertenausführung (PR #40304 im Hugging Face Transformers Repository). Diese Optimierung beseitigt redundante Berechnungen, bei denen jeder Experte alle Tokens verarbeitet. Stattdessen wird jeder Experte nur auf die ihm zugewiesenen Tokens angewendet, wodurch unnötige Rechenschritte entfallen und die Auslastung verbessert wird.

    Benchmark-Details und Ergebnisse

    Die Benchmarks konzentrierten sich auf die Dekodierungsleistung (Latenz pro Token) und den normalisierten End-to-End-Durchsatz bei steigender Batch-Größe, während die Sequenzlängen konstant gehalten wurden. Alle Tests verwendeten einen statischen KV-Cache und SDPA-Attention für deterministische Ergebnisse.

    Konfigurationsübersicht:

    • Modell: unsloth/gpt-oss-120b-BF16
    • Präzision: bfloat16
    • Aufgabe: Textgenerierung
    • Eingabelänge: 1024 Tokens (linksbündig gepaddet)
    • Ausgabelänge: 1024 Tokens
    • Batch-Größen: 1, 2, 4, 8, 16, 32, 64
    • Aktivierte Funktionen:
      • Statischer KV-Cache
      • SDPA-Attention-Backend
    • Berichtete Metrik: Durchsatz (Gesamtanzahl generierter Tokens pro Sekunde, aggregiert über den Batch)

    Hardware im Test:

    • Instance: C3 (4th Gen Intel Xeon Prozessor, SPR) | vCPUs: 172
    • Instance: C4 (Intel Xeon 6 Prozessor, GNR) | vCPUs: 144

    Ergebnisse:

    Die C4 Instanzen mit Intel Xeon 6 Prozessoren zeigten durchweg eine überlegene Leistung gegenüber den C3 Instanzen. Insbesondere wurde eine Verbesserung des TCO um das 1,7-fache erzielt. Dies bedeutet, dass für das gleiche Volumen generierter Tokens die C3 VMs etwa das 1,7-fache der Kosten verursachen würden. Die C4 Instanzen lieferten eine 1,4- bis 1,7-fach höhere normalisierte Durchsatzleistung pro vCPU im Vergleich zu den C3 Instanzen, was sich direkt in niedrigeren Kosten pro Stunde bei gleicher Leistung niederschlägt.

    Schlussfolgerung

    Die Google Cloud C4 VMs, angetrieben von Intel Xeon 6 Prozessoren, bieten sowohl beeindruckende Leistungssteigerungen als auch eine verbesserte Kosteneffizienz für die Inferenz großer MoE-Modelle. Für die GPT OSS MoE-Inferenz wurden ein höherer Durchsatz, eine geringere Latenz und reduzierte Kosten beobachtet. Diese Ergebnisse unterstreichen, dass dank gezielter Framework-Optimierungen von Intel und Hugging Face große MoE-Modelle effizient auf General-Purpose-CPUs der nächsten Generation betrieben werden können. Für Unternehmen, die ihre KI-Workloads in der Cloud optimieren möchten, stellen die C4 VMs eine attraktive Option dar, um die Leistung zu maximieren und gleichzeitig die Betriebskosten zu kontrollieren.

    Bibliography

    - Hugging Face Blog: "Google Cloud C4 Brings a 70% TCO improvement on GPT OSS with Intel and Hugging Face" (October 16, 2025) - Intel: "Improve AI Performance and Value by Selecting Google Cloud C4 VMs for BERT and ResNet-50 Applications" (PDF document, October 2024) - LinkedIn Post by Courtney Harrison (December 18, 2024): Mentions benchmarking on Google Cloud C4 instances with 5th Gen Intel Xeon CPUs. - Hugging Face Blog: "Benchmarking Language Model Performance on 5th Gen Xeon at GCP" (December 17, 2024) - Google Cloud Blog: "C4 machine series is now GA" (August 19, 2024) - Hugging Face Blog: "Welcome GPT OSS, the new open-source model family from OpenAI!" (August 5, 2025) - Intel Community Blog: "Google Cloud NEXT: Intel brings performance, flexibility, and security while enhancing optimal TCO" (April 10, 2025) - Hugging Face Blog by Sasha: "The GPT-OSS models are here… and they're energy-efficient!" (August 8, 2025)

    Artikel jetzt als Podcast anhören

    Kunden die uns vertrauen:
    Arise Health logoArise Health logoThe Paak logoThe Paak logoOE logo2020INC logoEphicient logo
    und viele weitere mehr!

    Bereit für den nächsten Schritt?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen