Neue Architektur für Sprachmodelle: DeepSeek präsentiert Engram mit separatem Gedächtnis und logischem Denken

Kategorien:

No items found.

Freigegeben:

January 19, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Der schnelle Überblick

DeepSeek hat mit "Engram" eine neue Architektur für große Sprachmodelle (LLMs) vorgestellt, die Gedächtnis und logisches Denken trennt.
Engram ermöglicht ein schnelles Nachschlagen statischer Informationen in konstanter Zeit (O(1)), wodurch Rechenressourcen für komplexere Aufgaben freigesetzt werden.
Die Architektur nutzt Techniken wie Tokenizer-Kompression, Multi-Head Hashing und kontextsensitives Gating, um Effizienz und Präzision zu gewährleisten.
Benchmark-Tests zeigen signifikante Leistungssteigerungen in Bereichen wie Wissensabfrage, logisches Denken und der Verarbeitung langer Kontexte, selbst bei identischem Parameter- und FLOPs-Budget.
Ein optimales Verhältnis von 20-25% des Modellbudgets für Engram und der Rest für Mixture-of-Experts (MoE) Module wurde als ideal identifiziert.
Engram erlaubt das Auslagern großer Speichertabellen in den Host-DRAM mit minimalen Leistungseinbußen, was die Abhängigkeit von teurem GPU-HBM reduziert.
Die Forschung deutet auf eine neue Ära hybrider KI-Architekturen hin, die Speicher und Berechnung als unabhängig skalierbare Ressourcen betrachten.

Revolution in der LLM-Architektur: DeepSeeks "Engram" trennt Gedächtnis und Denken

Die Entwicklung großer Sprachmodelle (LLMs) wird maßgeblich durch Fortschritte in der Architektur und Effizienz vorangetrieben. Eine jüngste Veröffentlichung des chinesischen KI-Unternehmens DeepSeek, die das Konzept "Engram" vorstellt, markiert einen potenziell wegweisenden Schritt in dieser Evolution. Engram zielt darauf ab, ein fundamentales Problem moderner Transformer-Modelle zu adressieren: die ineffiziente Handhabung von statischem Wissen. Anstatt bekannte Fakten und Muster bei jeder Abfrage neu zu berechnen, führt Engram einen dedizierten Mechanismus für den schnellen Speicherabruf ein, wodurch die Rechenleistung für komplexere Denkprozesse freigegeben wird.

Die Herausforderung: Gedächtnis und Berechnung in LLMs

Aktuelle LLMs, einschließlich solcher, die auf Mixture-of-Experts (MoE)-Architekturen basieren, sind darauf ausgelegt, sowohl statisches Wissen zu speichern als auch dynamische logische Schlussfolgerungen zu ziehen. Wenn ein Modell beispielsweise die Frage "Was ist die Hauptstadt Frankreichs?" beantworten soll, muss es diese Information aus seinen trainierten Parametern "ableiten". Dieser Prozess, der oft mehrere Schichten von Aufmerksamkeits- und Feed-Forward-Netzwerken involviert, ist rechenintensiv. Das Modell simuliert den Abruf von Informationen durch aufwendige Berechnungen, selbst wenn es sich um bekannte, sich wiederholende Muster handelt. Dies führt zu einer Verschwendung von Rechenzyklen und limitiert die Skalierbarkeit, insbesondere im Hinblick auf den Bedarf an High-Bandwidth Memory (HBM) in GPUs.

Engram: Eine neue Achse der Sparsität

DeepSeek schlägt mit Engram eine "konditionale Gedächtnis"-Architektur vor, die statisches Wissen von dynamischem Denken entkoppelt. Das Konzept basiert auf der Idee, dass Sprachmodellierung zwei unterschiedliche Aufgaben umfasst:

Dynamisches Denken: Dies beinhaltet logische Komposition, mehrstufige Schlussfolgerungen, mathematische Problemlösung und Code-Generierung. Diese Aufgaben erfordern tatsächlich eine tiefe, adaptive Berechnung.
Abruf statischer Muster: Hierzu gehören benannte Entitäten, gebräuchliche Phrasen, Redewendungen, grammatikalische Strukturen und einfache Code-Muster. Diese sind lokal, repetitiv und weitgehend kontextunabhängig.

Engram ist ein in den Transformer eingebettetes, parametrisches und end-to-end trainiertes Speichermodul. Es funktioniert konzeptionell wie ein modernisiertes N-Gramm-Gedächtnis:

Lokaler Token-Kontext wird als Schlüssel verwendet.
Eine massive Embedding-Tabelle wird über Hashing abgefragt.
Abgerufene Vektoren werden in den Hidden State des Modells integriert.

Im Gegensatz zur Aufmerksamkeitsmechanismus erfolgt dieser Abruf in konstanter Zeit (O(1)), unabhängig von der Sequenzlänge und deterministisch. Dies bedeutet, dass die Geschwindigkeit und die Kosten des Abrufs konstant bleiben, unabhängig von der Menge der gespeicherten Fakten. Engram stellt somit eine neue "Achse der Sparsität" dar, die die konditionale Berechnung von MoE-Modellen ergänzt.

Technologische Implementierung und Funktionsweise

Die Architektur von Engram integriert mehrere Schlüsselkomponenten, um diese "konditionale Gedächtnis"-Funktionalität zu realisieren:

Tokenizer-Kompression: Um die Größe der Nachschlagetabelle zu reduzieren und die semantische Dichte zu erhöhen, komprimiert Engram äquivalente Token (z.B. "Apple" und "apple") zu kanonischen Formen. Dies führt zu einer Reduzierung der effektiven Vokabulargröße um 23%.
Multi-Head Hashing: Angesichts der unzähligen möglichen N-Gramm-Kombinationen verwendet Engram K verschiedene Hash-Heads für jede N-Gramm-Ordnung, um Kollisionen zu mindern. Wenn Embeddings abgerufen werden, aggregiert das System über alle Heads, wodurch die Auswirkungen einzelner Kollisionen reduziert werden.
Kontextsensitives Gating: Nicht jede abgerufene Gedächtnisinformation ist in jedem Kontext relevant. Engram verwendet einen Gating-Mechanismus, bei dem der aktuelle Hidden State des Modells als Abfrage fungiert. Dieser Mechanismus entscheidet, wie stark die abgerufene Erinnerung gewichtet werden soll. Widerspricht die Erinnerung dem breiteren Kontext, wird sie unterdrückt; passt sie, wird sie integriert.

Engram ersetzt nicht die Aufmerksamkeits- oder Feed-Forward-Netzwerke, sondern erweitert sie. Die Integration erfolgt typischerweise früh in den Transformer-Schichten (z.B. Schicht 2), um statische Musterrekonstruktionen zu entlasten, bevor das Modell Rechenressourcen darauf verschwendet.

Benchmark-Ergebnisse und Leistungssteigerungen

Die Forschungsergebnisse von DeepSeek zeigen signifikante Leistungsverbesserungen durch Engram. In Benchmark-Tests wurde ein Engram-27B-Modell mit einem Standard-MoE-27B-Modell unter identischen Parameter- und FLOPs-Beschränkungen verglichen. Die Ergebnisse sind wie folgt:

Wissens- und Denkaufgaben: Engram-27B zeigte Verbesserungen von 3 bis 5 Punkten in gängigen Benchmarks wie MMLU, CMMLU, BBH und ARC-Challenge.
Code- und Mathematikaufgaben: Auch hier waren Leistungssteigerungen von 1,6 bis 3 Punkten in HumanEval, MBPP, GSM8K und MATH zu verzeichnen.
Verarbeitung langer Kontexte: Die bemerkenswertesten Verbesserungen wurden bei Aufgaben mit langen Kontexten erzielt. Beim "Needle-in-a-Haystack"-Benchmark, der die Fähigkeit eines Modells testet, spezifische Informationen in langen Dokumenten zu finden, erreichte Engram eine Genauigkeit von 97% gegenüber 84,2% des MoE-Baselines.

Diese Ergebnisse deuten darauf hin, dass die Entlastung der frühen Netzwerkschichten von statischer Rekonstruktion die "effektive Tiefe" des Netzwerks für komplexes Denken erhöht. Engram macht Modelle nicht "smarter", indem es Fakten hinzufügt, sondern indem es Rechenressourcen freisetzt.

Skalierungsgesetze und Systemeffizienz

Ein zentrales Ergebnis der Studie ist die Entdeckung eines U-förmigen Skalierungsgesetzes. Dieses Gesetz beschreibt das optimale Verhältnis zwischen der Allokation von Parametern für MoE-Experten (Berechnung) und Engram-Embeddings (Gedächtnis) bei einem festen Gesamtbudget. Die Forschung identifizierte einen "Sweet Spot", bei dem etwa 20-25% des spärlichen Parameterbudgets für Engram und der Rest für MoE-Module zugewiesen werden, um die beste Leistung zu erzielen. Weder reine MoE- noch reine Engram-Architekturen sind optimal.

Ein weiterer entscheidender Vorteil von Engram ist die Systemeffizienz. Da die N-Gramm-IDs deterministisch sind (abhängig nur von den Eingabetoken und nicht von dynamischen Aktivierungen), können Speichertabellen asynchron vorab abgerufen werden. DeepSeek demonstrierte, dass eine 100 Milliarden Parameter umfassende Embedding-Tabelle vollständig in den Host-DRAM ausgelagert werden kann, mit einem Durchsatzverlust von weniger als 3%. Dies reduziert die Abhängigkeit von teurem und knappen GPU-HBM und ermöglicht eine aggressive Skalierung der Speicherkapazität des Modells.

Implikationen für die Zukunft der KI

Engram stellt einen Paradigmenwechsel in der LLM-Architektur dar. Es legt nahe, dass die nächste Generation von LLMs nicht nur durch größere Modelle, sondern durch intelligentere architektonische Entscheidungen definiert wird. Die Fähigkeit, statisches Wissen und dynamisches Denken als unabhängige Ressourcen zu behandeln, könnte die Skalierungsgesetze für KI neu definieren. Für Unternehmen, die KI implementieren, bedeutet dies, dass optimale KI-Systeme zunehmend hybride Architekturen aufweisen werden, die unterschiedliche Mechanismen für unterschiedliche kognitive Aufgaben nutzen.

Die offene Bereitstellung des Codes und der Forschungsarbeit durch DeepSeek ermöglicht es der globalen Forschungsgemeinschaft, diese Innovation sofort zu nutzen und weiterzuentwickeln. Es wird erwartet, dass Engram eine Schlüsselrolle in DeepSeeks zukünftigen Modellen, wie dem erwarteten V4, spielen wird. Diese Entwicklung könnte nicht nur die Effizienz und Leistungsfähigkeit von LLMs steigern, sondern auch die Kosten für ihren Betrieb senken und den Zugang zu fortschrittlicher KI demokratisieren, indem sie den Druck auf die HBM-Lieferketten mindert.

Fazit

DeepSeeks Engram ist ein bedeutender Schritt in der Entwicklung von LLMs. Durch die klare Trennung von Gedächtnis und Denken und die Einführung eines effizienten, konditionalen Speichermoduls adressiert es eine zentrale Ineffizienz aktueller Architekturen. Die erzielten Leistungssteigerungen und die Möglichkeit, Speicherkapazitäten flexibler zu skalieren, eröffnen neue Perspektiven für die Gestaltung leistungsfähigerer, kostengünstigerer und skalierbarer KI-Systeme. Es bleibt abzuwarten, wie sich diese Architektur in der Praxis etabliert, doch das Potenzial für eine Neudefinition der LLM-Landschaft ist unbestreitbar.

Bibliographie

- AI Revolution. (2026, 18. Januar). DeepSeek Just Made LLMs Way More Powerful: Introducing ENGRAM. YouTube. - Analytics Vidhya. (2026, 15. Januar). DeepSeek Engram: The Conditional Memory Revolution for LLMs. - BigGo News. (2026, 13. Januar). DeepSeek Unveils Engram: A New "Memory vs. Computation" Architecture for More Efficient AI. - BigGo News. (2026, 13. Januar). DeepSeek's Engram: A Memory Breakthrough That Could Redefine AI Efficiency and Ease GPU Bottlenecks. - Data Science in your pocket. (2026, 16. Januar). What is DeepSeek Engram?. YouTube. - Gupta, M. (2026, 17. Januar). What is DeepSeek Engram? Conditional Memory via Scalable ... Medium. - Introl Blog. (2026, 14. Januar). DeepSeek's Engram Separates Memory from Reasoning in LLM ... - Richardson, T. (2026, 13. Januar). Engram: How DeepSeek Added a Second Brain to Their LLM. rewire.it. - Sayem Ahmed. (2026, 14. Januar). Deepseek research touts memory breakthrough, decoupling compute power and RAM pools to bypass GPU & HBM constraints ... Tom's Hardware. - Xinghan, P. (2026, 13. Januar). DeepSeek Engram Explained: How Conditional Memory and O(1) Lookups Fix LLM Amnesia. Medium.