Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die rapide Entwicklung großer Sprachmodelle (LLMs) hat zu einer Verschiebung der Anforderungen an die Kommunikationsinfrastruktur in Hochleistungsrechenzentren geführt. Traditionelle kollektive Kommunikationsparadigmen, wie sie in vielen Machine-Learning-Frameworks verwendet werden, stoßen an ihre Grenzen, wenn es um die dynamischen und flexiblen Kommunikationsmuster moderner LLM-Architekturen geht. Eine aktuelle Forschungsarbeit stellt hierfür eine innovative Lösung vor, die auf Remote Direct Memory Access (RDMA) basiert und die Interoperabilität sowie Leistung in heterogenen Hardware-Umgebungen maßgeblich verbessert.
Die aktuellen LLM-Systeme, insbesondere bei Mustern wie disaggregierter Inferenz, Mixture-of-Experts (MoE)-Routing und asynchronem Reinforcement Learning (RL) Fine-Tuning, erfordern eine Kommunikationsflexibilität, die über einfache kollektive Operationen hinausgeht. Diese Ansätze sind durch folgende Charakteristika gekennzeichnet:
Bisherige Implementierungen sind oft an spezifische Netzwerkschnittstellenkarten (NICs) gebunden, was die Integration in Inferenz-Engines erschwert und die Portabilität über verschiedene Hardware-Anbieter, wie etwa Cloud-Anbieter, hinweg behindert. Dies führt zu einem sogenannten "Vendor Lock-in", bei dem Unternehmen an die Technologie eines spezifischen Anbieters gebunden sind und Schwierigkeiten haben, auf andere Plattformen zu wechseln.
Als Antwort auf diese Herausforderungen wurde TransferEngine entwickelt. Es handelt sich um eine portable RDMA-Kommunikationsbibliothek, die darauf abzielt, die Funktionalität gängiger NICs – wie NVIDIA ConnectX-7 und AWS Elastic Fabric Adapter (EFA) – unter einer einheitlichen Schnittstelle zusammenzuführen. Das Kernkonzept von TransferEngine liegt in der Nutzung von Hardware-Merkmalen, die eine zuverlässige, aber nicht notwendigerweise geordnete Datenübertragung zulassen, um eine flexible Abstraktionsschicht zu schaffen.
TransferEngine bietet sowohl zweiseitige Send/Recv-Operationen als auch einseitige WriteImm-Operationen. Ein entscheidendes Merkmal ist das neuartige ImmCounter-Primitiv zur Benachrichtigung über den Abschluss von Übertragungen. Dieses Primitiv ermöglicht es, den Empfang von Daten zu bestätigen, ohne dabei auf die Einhaltung einer bestimmten Reihenfolge durch den Netzwerktransport angewiesen zu sein. Dies ist besonders vorteilhaft, da es die Komplexität der zugrunde liegenden Netzwerkprotokolle abstrahiert.
Die Architektur von TransferEngine umfasst:
Die Implementierung in Rust nutzt NUMA-bewusste Allokationen, lock-freie Warteschlangen und Zero-Copy-Schnittstellen, um Latenz zu minimieren und den Durchsatz zu maximieren.
Die Wirksamkeit von TransferEngine wurde anhand von drei Produktionssystemen demonstriert:
Bei der disaggregierten Inferenz werden Prädiktions- und Dekodierungsphasen auf verschiedene Geräte aufgeteilt. Dies erfordert eine uneingeschränkte, latenzarme Kommunikation zwischen den Prädiktor- und Dekodierknoten. TransferEngine ermöglicht paginierte KV-Cache-Übertragungen und Kontextaustausch ohne synchronisierte Initialisierung oder feste Mitgliedschaft, wodurch eine elastische Skalierung unterstützt wird. Die Nutzung von UVM-Watchern löst schichtweise Übertragungen aus, wobei der Dekoder den erwarteten Transfer verfolgt und den ImmCounter für die Abschlussbenachrichtigung nutzt, was eine sofortige Dekodierung nach Abschluss der Übertragung ermöglicht.
Asynchrones RL-Fine-Tuning erfordert eine schnelle Gewichtssynchronisation von Trainings- zu Inferenz-GPUs. Dieser Prozess wird in kollektiv-basierten Frameworks oft zum Engpass. Mit dem Punkt-zu-Punkt-Ansatz von TransferEngine können Aktualisierungen für Modelle mit Billionen von Parametern in etwa 1,3 Sekunden durchgeführt werden, was mehr als hundertmal schneller ist als bisherige Methoden. Jede Trainings-GPU schreibt dabei die Gewichte direkt mittels einseitigem RDMA an die Inferenz-GPUs, wodurch die Cluster-Bandbreite vollständig genutzt und Engpässe vermieden werden.
Mixture-of-Experts (MoE)-Architekturen benötigen ein latenzarmes und durchsatzstarkes Routing von Token zu Experten über verschiedene Knoten hinweg. TransferEngine ermöglicht Proxy-basierte Dispatch/Combine-Kernels, die sowohl auf ConnectX als auch auf EFA portabel sind und eine Dekodierungs-Latenz auf dem neuesten Stand der Technik erreichen. Das Design minimiert den Proxy-Overhead durch den Austausch von Routing-Informationen und Token-Zählungen, was kontiguierliche Puffer-Schreibvorgänge und effiziente Scatter-Operationen ermöglicht.
TransferEngine erreichte Spitzen-Durchsätze von 400 Gbit/s sowohl auf ConnectX-7 als auch auf EFA. Paginierte Schreibvorgänge sättigten die Bandbreite bei 64 KiB Nachrichtengrößen. Für RL-Gewichtsübertragungen wurden bei 256 KiB einzelnen Schreibvorgängen 54 Gbit/s (EFA) und 116 Gbit/s (ConnectX-7) erreicht. Die MoE-Dispatch/Combine-Kernels übertrafen DeepEP in Inter-Node-Szenarien und zeigten sich auf EFA als erste praktikable Lösung. Die Latenzen für Senden/Empfangen wurden hauptsächlich durch Speicherkopier- und Akkumulationsvorgänge dominiert, wobei die gesamte Kernel-Ausführung weniger als 15% der Übertragungszeiten ausmachte.
Die Entwicklung von TransferEngine demonstriert, dass portable, Punkt-zu-Punkt-RDMA-Kommunikation über heterogene Cloud-Hardware hinweg sowohl machbar als auch leistungsfähig ist. Dies eliminiert den Zwang zu einem bestimmten Anbieter und ergänzt kollektive Bibliotheken für moderne LLM-Workloads. Die Abstraktion der zuverlässigen, ungeordneten Übertragung und das ImmCounter-Primitiv ermöglichen robuste, skalierbare und dynamische Kommunikationsmuster, die für disaggregierte Inferenz, MoE-Routing und RL-Fine-Tuning erforderlich sind.
Die praktischen Auswirkungen sind erheblich: Produktionssysteme können nun auf verschiedenen Cloud-Plattformen eingesetzt werden, ohne Leistung oder Flexibilität einzubüßen. Theoretische Implikationen umfassen die Entkopplung von Kommunikationsmustern von Hardware-spezifischen Ordnungsgarantien, was neue Systemarchitekturen für LLM-Bereitstellung und -Training ermöglicht.
Zukünftige Arbeiten könnten sich auf die weitere Reduzierung des Proxy-Overheads, die Erweiterung der Unterstützung auf zusätzliche NICs (z.B. Alibaba eRDMA, Google Falcon) und die Integration von TransferEngine in gängige LLM-Frameworks und RL-Bibliotheken konzentrieren. Die Untersuchung von Hardware-Offloads für ImmCounter und eine tiefere Integration mit CUDA-Graphen könnten zusätzliche Latenzverbesserungen erzielen.
TransferEngine repräsentiert einen Fortschritt in der Kommunikationsarchitektur für Large Language Models. Durch die Bereitstellung einer portablen, leistungsstarken und herstellerunabhängigen RDMA-Kommunikation ermöglicht es die Bibliothek, die Anforderungen zukünftiger LLM-Systeme zu erfüllen und gleichzeitig die Flexibilität und Skalierbarkeit in komplexen Cloud-Umgebungen zu erhöhen. Diese Entwicklung trägt dazu bei, die Effizienz und Zugänglichkeit von KI-Berechnungen der nächsten Generation neu zu definieren.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen