Das Wichtigste in Kürze
- Alibaba Cloud hat ein neues System namens HPN (High Performance Network) entwickelt, das den Bedarf an Nvidia-GPUs für den Betrieb großer Sprachmodelle um 82 Prozent reduziert.
- Das System wurde auf dem ACM Symposium on Operating Systems (SOSP) 2025 vorgestellt und ermöglicht es, mit 213 GPUs dieselbe Leistung zu erbringen, für die zuvor 1.192 GPUs benötigt wurden.
- Die Einsparungen werden durch die Kombination mehrerer Modelle pro GPU und ein Token-basiertes Autoscaling zur dynamischen Zuweisung von Rechenleistung erzielt.
- Das HPN-Design setzt auf Ethernet anstelle von Nvidias NVLink, um Vendor Lock-in zu vermeiden und die Vorteile des gesamten Ethernet-Ökosystems zu nutzen.
- Ein zentraler Bestandteil ist der Einsatz von 51,2-Tbit/s-Single-Chip-Switches mit einer speziell entwickelten Kühlung zur Leistungsoptimierung.
- Die Architektur beinhaltet ein "Non-stacked Dual-ToR"-Design zur Erhöhung der Ausfallsicherheit und eine Dual-Plane-Architektur zur Vermeidung von Hash-Polarisation.
- Diese Innovationen sollen die Effizienz und Skalierbarkeit von KI-Infrastrukturen verbessern, insbesondere in Märkten mit begrenztem Zugang zu Hochleistungs-Chips.
 
Die rapide Entwicklung künstlicher Intelligenz (KI) stellt Unternehmen weltweit vor erhebliche Herausforderungen, insbesondere im Hinblick auf die benötigte Hardware-Infrastruktur. Grafikkarten (GPUs) von Herstellern wie Nvidia sind entscheidend für das Training und den Betrieb großer Sprachmodelle (LLMs), jedoch sind sie oft kostspielig und in einigen Märkten, wie China, durch Exportkontrollen begrenzt verfügbar. Vor diesem Hintergrund hat Alibaba Cloud eine bemerkenswerte Innovation vorgestellt, die das Potenzial hat, den Bedarf an diesen teuren KI-Chips drastisch zu reduzieren.
Alibaba Cloud revolutioniert GPU-Nutzung mit HPN
Alibaba Cloud hat ein neues System namens HPN (High Performance Network) entwickelt, das die GPU-Nutzung im KI-Bereich signifikant optimiert. Die Forschungsergebnisse, die auf dem ACM Symposium on Operating Systems (SOSP) 2025 in Seoul präsentiert wurden, deuten darauf hin, dass die Anzahl der für den Betrieb großer Sprachmodelle benötigten Nvidia-GPUs um bis zu 82 Prozent reduziert werden kann. Dies bedeutet, dass für Aufgaben, die zuvor 1.192 GPUs erforderten, nun lediglich 213 Einheiten ausreichen könnten.
Technische Grundlagen der Effizienzsteigerung
Die Effizienzsteigerung basiert auf zwei Haupttechniken:
- Modell-Kombination pro GPU: Anstatt jedem Large Language Model (LLM) eine dedizierte GPU zuzuweisen, ermöglicht das neue System, dass eine einzelne GPU mehrere verschiedene Modelle gleichzeitig bedient. Dies erhöht die Auslastung der Hardware erheblich.
- Token-basiertes Autoscaling: Das System verwendet ein Autoscaling auf Token-Ebene zur dynamischen Zuweisung von Rechenleistung bei der Ausgabe. Im Gegensatz zur Reservierung von Ressourcen auf Anfrageebene wird die Rechenleistung präziser und bedarfsgerechter bereitgestellt, was zu einer optimierten Nutzung führt.
Diese Ansätze haben im Rahmen eines mehrmonatigen Betatests den sogenannten "Goodput" – ein Maß für die effektive Leistung – im Vergleich zu älteren serverlosen Systemen um das Neunfache gesteigert. Die Tests wurden Berichten zufolge mit Nvidias H20-Chips durchgeführt, die aufgrund aktueller US-Exportkontrollen zu den wenigen legal in China verfügbaren Hochleistungs-Chips gehören.
HPN: Eine eigenentwickelte Netzwerkinfrastruktur
Ein wesentlicher Aspekt der Alibaba-Innovation ist die Abkehr von Nvidias proprietärem NVLink-Interconnect-Protokoll zugunsten einer Ethernet-basierten Lösung. Alibaba Cloud möchte durch diese Strategie Vendor Lock-in vermeiden und die Vorteile des breiteren und sich schneller entwickelnden Ethernet-Ökosystems nutzen. Das High Performance Network (HPN) ist eine speziell für das Training großer Sprachmodelle entwickelte Netzwerkinfrastruktur, die auf einer zweischichtigen Dual-Plane-Architektur basiert.
Architektonische Details des HPN
Das HPN-Design integriert mehrere Schlüsselkomponenten und -strategien:
- Dual-ToR-Design (Top-of-Rack): Herkömmliche Rechenzentrumsnetzwerke sind anfällig für Ausfälle einzelner Top-of-Rack-Switches (ToR). Alibaba hat ein "Non-stacked Dual-ToR"-Design implementiert, bei dem zwei Ports jeder Netzwerkkarte (NIC) mit zwei unabhängigen ToR-Switches verbunden sind. Dies erhöht die Ausfallsicherheit erheblich, da bei einem Ausfall eines ToR-Switches der andere weiterhin den Datenverkehr abwickeln kann, ohne dass aktive Verbindungen unterbrochen werden.
- 51,2-Tbit/s-Single-Chip-Switches: Für die Tier-1-Netzwerkebene setzt Alibaba auf die neuesten 51,2-Tbit/s-Ethernet-Single-Chip-Switches. Die Entscheidung für Single-Chip-Switches anstelle von Multi-Chip-Chassis-Switches wurde aufgrund der höheren Stabilität und geringeren Ausfallraten getroffen.
- Optimiertes Kühlsystem: Die hohe Leistungsdichte der 51,2-Tbit/s-Chips führt zu erhöhter Wärmeentwicklung. Da handelsübliche Kühllösungen die Betriebstemperatur von 105°C nicht consistently unterschreiten konnten, entwickelte Alibaba ein eigenes Vapor-Chamber-Kühlsystem mit optimierter Dochtstruktur und zusätzlichen Dochtsäulen im Chipzentrum. Dies steigerte die Kühleffizienz um 15 Prozent und gewährleistet den stabilen Betrieb unter Volllast.
- Rail-Optimiertes Netzwerk: Dieses Konzept, ursprünglich von Nvidia vorgeschlagen, wird im HPN angewendet, um die unterschiedlichen Bandbreitenkapazitäten innerhalb eines Hosts (z.B. NVLink) und zwischen Hosts optimal zu nutzen. Jede GPU ist einem dedizierten "Rail" zugeordnet, wodurch die Kommunikation effizienter kanalisiert wird.
- Dual-Plane-Architektur in Tier 2: Zur Überwindung der Hash-Polarisation, einem Problem, das bei der Lastverteilung in traditionellen Clos-Topologien auftritt und die nutzbare Bandbreite reduziert, wurde eine Dual-Plane-Architektur in der Tier-2-Ebene implementiert. Diese Architektur teilt die ToR-Switches in zwei separate Gruppen, wodurch der Weiterleitungspfad eines Datenflusses innerhalb des Pods eindeutig bestimmt wird und eine gleichmäßigere Lastverteilung erreicht wird.
- Skalierbarkeit auf 15.000 GPUs pro Pod: Durch die Kombination des Dual-Plane-Designs, der 51,2-Tbit/s-Switches und einer 15:1-Übersubskription in der Aggregation-Core-Schicht kann ein einzelner Pod im HPN bis zu 15.000 GPUs miteinander verbinden. Dies ermöglicht es, die meisten aktuellen LLM-Trainingsjobs innerhalb eines einzigen Pods abzuwickeln, was die Latenz reduziert und die Netzwerkleistung maximiert.
- Separate Frontend- und Backend-Netzwerke: HPN trennt den Datenverkehr für das LLM-Training (Backend-Netzwerk) von Management-, Inferenz- und Speichertraffic (Frontend-Netzwerk). Dies stellt sicher, dass der Trainingsprozess nicht durch andere Datenströme beeinträchtigt wird und ermöglicht eine flexible Nutzung der Hosts für Training und Inferenz.
Auswirkungen auf den Markt und zukünftige Entwicklungen
Die Innovationen von Alibaba Cloud könnten weitreichende Auswirkungen auf den KI-Hardwaremarkt und die Entwicklung von KI-Infrastrukturen haben. Die Reduzierung der Abhängigkeit von teuren Nvidia-GPUs und die Nutzung offener Ethernet-Standards könnten Cloud-Anbietern weltweit neue Wege zur Kosteneinsparung und zur Steigerung der Effizienz eröffnen. Insbesondere in Regionen, die von Exportbeschränkungen betroffen sind, könnte dies die Entwicklung lokaler KI-Lösungen beschleunigen.
Es bleibt abzuwarten, inwieweit andere Hyperscaler ähnliche Optimierungen bereits implementiert haben oder in Zukunft verfolgen werden. Studien deuten darauf hin, dass große Cloud-Anbieter ihre technologischen Plattformen nicht vollständig offenlegen, sodass vergleichbare interne Entwicklungen bei Wettbewerbern möglich sind. Dennoch unterstreicht Alibabas Ansatz die Bedeutung von Hardware-Software-Co-Design und Netzwerkoptimierung für die Skalierung und Effizienz von KI-Workloads.
Für Unternehmen, die KI-Technologien nutzen oder entwickeln, bieten diese Entwicklungen wichtige Erkenntnisse:
- Kostenoptimierung: Effizientere GPU-Nutzung kann die Betriebskosten für KI-Infrastrukturen erheblich senken.
- Flexibilität und Unabhängigkeit: Der Fokus auf offene Standards wie Ethernet kann die Abhängigkeit von einzelnen Hardware-Anbietern reduzieren und die Anpassungsfähigkeit an zukünftige Technologien verbessern.
- Skalierbarkeit: Durchdachte Netzwerkarchitekturen sind entscheidend für die Skalierung von KI-Modellen und -Anwendungen.
- Ausfallsicherheit: Robuste Designs, die Single Points of Failure vermeiden, sind für den kontinuierlichen Betrieb kritischer KI-Workloads unerlässlich.
Alibabas HPN demonstriert, dass durch tiefgreifende Innovationen in der Infrastruktur erhebliche Effizienzgewinne im Bereich der KI erzielt werden können. Dies könnte einen Trend verstärken, bei dem spezialisierte Hardware-Designs und Software-Optimierungen eine immer größere Rolle spielen, um die Anforderungen der wachsenden KI-Landschaft zu erfüllen.
Bibliography
- Bernhard, Christian. "82 Prozent weniger GPUs nötig: Wie Alibaba teure KI-Chips einspart." t3n.de, 21. Oktober 2025.
- "Alibaba revolutioniert KI-Infrastruktur: 82 Prozent weniger Nvidia-GPUs durch cleveres Pooling-System." Kettner Edelmetalle, 20. Oktober 2025.
- Tan, Aaron. "An inside look at Alibaba’s deep learning processor." ComputerWeekly.com, 21. Oktober 2025.
- Qian, Kun, et al. "Alibaba HPN: A Data Center Network for Large Language Model Training." ACM SIGCOMM 2024 Conference, August 2024.
- "Alibaba Cloud researchers unveil technology to interconnect 15,000 GPUs in AI data centers, abandoning NVIDIA technology in favor of Ethernet." Gigazine, 1. Juli 2024.
- Sharwood, Simon. "Alibaba Cloud reveals its datacenter design, homebrew network used for LLM training." The Register, 27. Juni 2024.