Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Entwicklung großer Sprachmodelle (LLMs) ist von einem stetigen Streben nach höherer Leistungsfähigkeit und Skalierbarkeit geprägt. Eine zentrale Herausforderung in diesem Prozess ist die Sicherstellung der Trainingsstabilität, insbesondere bei immer tieferen und komplexeren Netzwerkarchitekturen. Forscher von DeepSeek haben hierzu eine neue Methode vorgestellt, die als Manifold-Constrained Hyper-Connections (mHC) bezeichnet wird, und die darauf abzielt, den Signalfluss in großen KI-Modellen zu regulieren und gleichzeitig die Lernkapazität zu erhalten. Diese Entwicklung könnte weitreichende Auswirkungen auf die Effizienz und Robustheit des Trainings zukünftiger KI-Systeme haben.
Neuronale Netze nutzen seit etwa einem Jahrzehnt sogenannte Residual Connections, um Informationen durch tiefe Architekturen zu leiten. Diese Verbindungen fungieren als Abkürzungen, die es ermöglichen, dass Informationen aus frühen Schichten direkt spätere Schichten erreichen, was das Training stabilisiert. Neuere Ansätze, wie die "Hyper-Connections" (HC), erweitern dieses Prinzip, indem sie den Informationsfluss verbreitern und komplexere Verbindungsmuster einführen. Während diese Erweiterungen das Potenzial haben, die Leistung zu steigern, können sie bei größeren Modellen zu einer Destabilisierung des Trainings führen. DeepSeek hat sich dieser Problematik angenommen und mit mHC eine Lösung präsentiert, die beide Vorteile – Leistung und Stabilität – vereinen soll.
Bei Standard-Residual-Connections durchlaufen Signale das Netzwerk im Wesentlichen unverändert. Diese Eigenschaft trägt zur Trainingsstabilität bei, da Fehler, aus denen das Modell lernt, zuverlässig durch alle Schichten zurückfließen und Anpassungen in erwarteten Grenzen bleiben.
Hyper-Connections funktionieren anders. Signale durchlaufen lernbare Matrizen, die sie transformieren. Dies ist beabsichtigt, da es dem Netzwerk ermöglicht, komplexere Muster zu lernen. Das Problem entsteht, wenn sich diese Änderungen über viele Schichten hinweg summieren. Anstatt Signale unverändert weiterzuleiten, kann jede Schicht sie weiter verstärken oder abschwächen. Die Forscher dokumentierten dieses Problem anhand eines Modells mit 27 Milliarden Parametern: Bei etwa 12.000 Trainingsschritten zeigte HC einen plötzlichen Anstieg des Verlusts – der Fehlerrate, aus der das Modell lernt. Eine solche Sprungmarke ist ein Warnsignal dafür, dass das Training instabil geworden ist und die Lernsignale (Gradienten) außer Kontrolle geraten sind.
Die Ursache liegt laut dem Team darin, wie stark Signale verstärkt werden, während sie sich durch das Netzwerk bewegen. Die Forscher messen dies mit einer Metrik, die idealerweise bei etwa 1 liegen sollte – was bedeutet, dass das Signal mit der gleichen Stärke ankommt, mit der es begonnen hat. Bei HC erreichte dieser Wert jedoch bis zu 3.000. Das bedeutet, dass Signale dreitausendfach verstärkt werden, was unweigerlich zu Problemen führt. Darüber hinaus erzeugt HC einen erheblichen Speicherzugriffs-Overhead. Da sich der Informationsfluss um den Faktor 4 verbreitert, nehmen die Speicherzugriffe entsprechend zu.
Die Kernidee hinter mHC besteht darin, die lernbaren Verbindungsmatrizen mathematisch einzuschränken. Die Forscher verwenden Matrizen mit einer speziellen Eigenschaft: Alle Einträge sind nicht-negativ, und sowohl die Zeilen- als auch die Spaltensummen sind genau 1.
In der Praxis bedeutet dies: Wenn eine solche Matrix auf ein Signal angewendet wird, entsteht eine gewichtete Mischung der Eingabewerte. Da die Gewichte positiv sind und sich zu 1 summieren, werden Signale umverteilt, aber nicht unkontrolliert verstärkt, selbst wenn viele solcher Schritte hintereinander erfolgen. Um jede Matrix in diese Form zu bringen, verwenden die Forscher ein iteratives Verfahren namens Sinkhorn-Knopp-Algorithmus. Es wechselt zwischen der Normalisierung von Zeilen und Spalten, bis beide zu 1 summieren. Die Implementierung verwendet 20 solcher Durchläufe, was Experimente zufolge ein gutes Gleichgewicht zwischen Genauigkeit und Rechenkosten darstellt.
Das Ergebnis: Die Signalverstärkung sinkt von 3.000 auf etwa 1,6 – eine Reduzierung um drei Größenordnungen. Signale bleiben nahe an ihrer ursprünglichen Stärke, und das Training bleibt stabil.
Die Forscher testeten mHC an Modellen mit 3, 9 und 27 Milliarden Parametern, basierend auf der DeepSeek-V3-Architektur. Das 27B-Modell zeigte stabile Trainingskurven ohne die Abstürze, die bei HC beobachtet wurden.
In Benchmarks übertraf mHC sowohl die Baseline als auch HC in den meisten Tests. Bei BBH, das komplexe Denkaufgaben testet, erreichte mHC 51,0 Prozent im Vergleich zu 48,9 Prozent für HC und 43,8 Prozent für die Baseline. Bei DROP, das Leseverständnis mit numerischem Denken kombiniert, erzielte mHC 53,9 gegenüber 51,6 und 47,0. Die Verbesserungen gegenüber HC sind mit 2,1 und 2,3 Prozentpunkten moderat, aber die Trainingsstabilität ist signifikant besser. Skalierungsexperimente zeigen, dass die Vorteile von mHC über verschiedene Modellgrößen und Trainingsbudgets hinweg bestehen bleiben. Die relative Verbesserung gegenüber der Baseline nimmt bei größeren Modellen nur geringfügig ab.
Um mHC praktikabel zu gestalten, haben die Forscher erhebliche Anstrengungen in die technische Umsetzung investiert. Durch die Kombination von Rechenoperationen konnten sie die Speicherzugriffe reduzieren. Ein selektiver Ansatz speichert nur wesentliche Zwischenergebnisse und berechnet den Rest bei Bedarf neu, wodurch der Speicherbedarf gesenkt wird.
Besonderes Augenmerk galt der Integration von mHC mit DualPipe, der Methode, die DeepSeek-V3 zur Verteilung des Trainings auf viele GPUs verwendet. Die Forscher optimierten die Kommunikation zwischen den Recheneinheiten, sodass sie parallel zu den eigentlichen Berechnungen erfolgte. Das Ergebnis: mHC verursacht nur 6,7 Prozent Overhead im Vergleich zur Standardarchitektur. Angesichts der Stabilitäts- und Leistungssteigerungen halten die Forscher diesen Kompromiss für akzeptabel. Das Team sieht mHC als Ausgangspunkt für weitere Forschungen zu Netzwerk-Topologien. Der Rahmen ermöglicht die Erforschung verschiedener mathematischer Einschränkungen, die auf spezifische Lernziele zugeschnitten werden könnten.
Die Einführung von mHC durch DeepSeek demonstriert einen Paradigmenwechsel in der Entwicklung großer KI-Modelle. Anstatt sich ausschließlich auf die Erhöhung von Parametern und Rechenleistung zu konzentrieren, rückt die architektonische Stabilität und Effizienz in den Vordergrund. Diese Innovation könnte dazu beitragen, die hohen Kosten und den Ressourcenverbrauch beim Training großer Modelle zu senken und somit die Entwicklung fortschrittlicher KI-Systeme einem breiteren Kreis von Forschern und Unternehmen zugänglich zu machen. Die Fähigkeit, Modelle stabiler und zuverlässiger zu trainieren, ist entscheidend für den Fortschritt in Bereichen wie der natürlichen Sprachverarbeitung, der Bilderkennung und der Robotik, wo die Komplexität der Aufgaben ständig zunimmt.
Es bleibt abzuwarten, wie sich mHC in der Praxis weiter etablieren wird und welche weiteren Optimierungen und Anwendungen sich aus diesem Ansatz ergeben. Die Arbeit von DeepSeek unterstreicht jedoch die Bedeutung einer fundierten mathematischen und technischen Herangehensweise, um die Grenzen der künstlichen Intelligenz kontinuierlich zu erweitreiten.
Bibliographie
- Maximilian Schreiner. "New Deepseek technique balances signal flow and learning capacity in large AI models." the-decoder.com, 10. Januar 2026. - Christopher Ort. "DeepSeek mHC: Stabilizing Deep AI Model Training." i10x.ai, 3. Januar 2026. - Matt Swayne. "What is mHC? How DeepSeek-AI Found a Way to Scale AI Models Without Training Breakdowns." theaiinsider.tech, 8. Januar 2026. - Satya Mallick. "DeepSeek AI's Manifold-Constrained Hyperconnections for Stable Large Language Models." LinkedIn, 4. Januar 2026. - Mrsinghh. "DeepSeek mHC: A Fundamental Shift in Transformer Architecture." supergok.com, 1. Januar 2026. - AI Revolution. "DeepSeek Just CRUSHED Big Tech Again: MHC." YouTube, 2. Januar 2026. - admin. "How DeepSeek Balances Efficiency and Power in AI Training." chat-deep.ai, 8. Oktober 2025. - Chenggang Zhao et al. "Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures." arxiv.org, 2025. - L. Xiong et al. "DeepSeek: Paradigm Shifts and Technical Evolution in Large AI Models." ieee-jas.net, Mai 2025.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen