Die Veröffentlichung des neuen KI-gestützten Chatbots DeepSeek aus China hat die Technologiebranche in Aufruhr versetzt. Schnell überholte die App OpenAIs ChatGPT als meist heruntergeladene kostenlose iOS-App in den USA und verursachte einen Kurssturz der Aktien des Chipherstellers Nvidia um fast 600 Milliarden US-Dollar – ein neuer Rekord an der US-Börse. Doch was steckt hinter diesem Hype?
Der Grund für die Aufregung liegt im sogenannten "Large Language Model" (LLM), das DeepSeek zugrunde liegt. Es verfügt über vergleichbare Argumentationsfähigkeiten wie US-amerikanische Modelle, wie z.B. OpenAIs GPT-Modelle, soll aber deutlich günstiger zu trainieren und zu betreiben sein. DeepSeek gibt an, dies durch verschiedene technische Strategien erreicht zu haben, die sowohl die Rechenzeit für das Training des Modells (genannt R1) als auch den Speicherbedarf reduzieren. Die Basisversion V3 von R1 benötigte Berichten zufolge 2,788 Millionen Stunden Trainingszeit (verteilt auf viele parallel arbeitende Grafikprozessoren – GPUs) und kostete schätzungsweise unter 6 Millionen US-Dollar. Zum Vergleich: OpenAI-Chef Sam Altman gab an, dass das Training von GPT-4 über 100 Millionen US-Dollar gekostet hat.
Trotz des Kurssturzes von Nvidia wurden die DeepSeek-Modelle laut einem Forschungsbericht des Unternehmens auf rund 2.000 Nvidia H800 GPUs trainiert. Diese Chips sind eine modifizierte Version des weit verbreiteten H100-Chips, die den Exportbestimmungen für China entsprechen. Wahrscheinlich wurden sie bevorratet, bevor die Biden-Administration im Oktober 2023 die Exportbeschränkungen weiter verschärfte und Nvidia den Export der H800 nach China effektiv untersagte. Es ist wahrscheinlich, dass DeepSeek aufgrund dieser Einschränkungen gezwungen war, innovative Wege zu finden, um die verfügbaren Ressourcen optimal zu nutzen.
Die Reduzierung der Rechenkosten für das Training und den Betrieb von KI-Modellen könnte auch Bedenken hinsichtlich der Umweltauswirkungen von KI adressieren. Rechenzentren haben einen enormen Strom- und Wasserbedarf, hauptsächlich um die Server vor Überhitzung zu schützen. Während die meisten Technologieunternehmen den CO2-Fußabdruck ihrer Modelle nicht offenlegen, schätzt eine Studie die monatlichen Kohlendioxidemissionen von ChatGPT auf über 260 Tonnen – das entspricht 260 Flügen von London nach New York. Eine höhere Effizienz von KI-Modellen wäre daher aus ökologischer Sicht ein positiver Schritt für die Branche.
Ob DeepSeeks Modelle tatsächlich Energieeinsparungen in der Praxis erzielen, bleibt abzuwarten. Ebenso ist unklar, ob günstigere und effizientere KI zu einer verstärkten Nutzung und damit zu einem Anstieg des Gesamtenergieverbrauchs führen könnte. Mindestens könnte die Entwicklung dazu beitragen, nachhaltige KI auf die Agenda des bevorstehenden KI-Gipfels in Paris zu setzen, damit zukünftige KI-Tools auch umweltfreundlicher werden.
Überraschend ist, wie schnell DeepSeek mit einem so wettbewerbsfähigen LLM auf den Markt gekommen ist. Das Unternehmen wurde erst 2023 von Liang Wenfeng gegründet, der in China bereits als "KI-Held" gefeiert wird. Das DeepSeek-Modell zeichnet sich auch dadurch aus, dass seine "Gewichte" – die numerischen Parameter des Modells, die aus dem Trainingsprozess resultieren – zusammen mit einem technischen Bericht über den Entwicklungsprozess veröffentlicht wurden. Dies ermöglicht es anderen Gruppen, das Modell auf eigener Hardware auszuführen und für andere Aufgaben anzupassen.
Diese relative Offenheit ermöglicht es Forschern weltweit, hinter die Kulissen des Modells zu blicken, im Gegensatz zu OpenAIs GPT-3 und GPT-4, die im Wesentlichen Black Boxes sind. Allerdings fehlen noch einige Details, wie z.B. die Datensätze und der Code, die für das Training verwendet wurden. Forschungsgruppen versuchen nun, diese Informationen zu rekonstruieren.
Nicht alle Kostenspartechniken von DeepSeek sind neu – einige wurden bereits in anderen LLMs verwendet. Im Jahr 2023 veröffentlichte Mistral AI sein Mixtral 8x7B-Modell, das mit den damals fortschrittlichsten Modellen mithalten konnte. Sowohl Mixtral als auch die DeepSeek-Modelle nutzen die "Mixture of Experts"-Technik. Dabei wird das Modell aus einer Gruppe viel kleinerer Modelle aufgebaut, die jeweils Expertise in bestimmten Bereichen haben. Bei einer gegebenen Aufgabe weist das Mischmodell sie dem qualifiziertesten "Experten" zu.
DeepSeek hat sogar seine erfolglosen Versuche offengelegt, die Argumentationsfähigkeit von LLMs durch andere technische Ansätze zu verbessern, wie z.B. die Monte-Carlo-Baumsuche. Forscher werden diese Informationen nutzen, um zu untersuchen, wie die bereits beeindruckenden Problemlösungsfähigkeiten des Modells weiter verbessert werden können – Verbesserungen, die wahrscheinlich in die nächste Generation von KI-Modellen einfließen werden.
DeepSeek zeigt möglicherweise, dass man keine riesigen Ressourcen benötigt, um anspruchsvolle KI-Modelle zu entwickeln. Es ist zu erwarten, dass in Zukunft immer leistungsfähigere KI-Modelle mit immer weniger Ressourcen entwickelt werden, da Unternehmen Wege finden, das Modelltraining und den Betrieb effizienter zu gestalten. Bisher wurde die KI-Landschaft von "Big Tech"-Unternehmen in den USA dominiert. Diese Entwicklung ist aber möglicherweise langfristig keine schlechte Nachricht für Unternehmen wie Nvidia: Wenn die finanziellen und zeitlichen Kosten für die Entwicklung von KI-Produkten sinken, können Unternehmen und Regierungen diese Technologie leichter einsetzen. Dies wiederum wird die Nachfrage nach neuen Produkten und den Chips, die sie antreiben, steigern.
Es ist wahrscheinlich, dass kleinere Unternehmen wie DeepSeek eine wachsende Rolle bei der Entwicklung von KI-Tools spielen werden, die das Potenzial haben, unser Leben zu erleichtern. Es wäre ein Fehler, dies zu unterschätzen.
BBC.com/future/article/20250131-what-does-deepseeks-new-app-mean-for-the-future-of-ai medium.com/@tulsi.beladiya1302/deepseek-the-ai-tool-everyones-talking-about-but-no-one-s-explaining-a2fcad8b5798 techradar.com/computing/artificial-intelligence/deepseek-is-the-new-ai-chatbot-that-has-the-world-talking-i-pitted-it-against-chatgpt-to-see-which-is-best arstechnica.com/ai/2025/01/how-does-deepseek-r1-really-fare-against-openais-best-reasoning-models/ epidemicsound.com/blog/what-is-deepseek-ai/ mashable.com/article/deepseek-ai-chatgpt-rival-what-to-know zdnet.com/article/why-chinas-deepseek-could-burst-our-ai-bubble/ theguardian.com/technology/2025/jan/27/deepseek-cyberattack-ai aa.com.tr/en/asia-pacific/china-s-deepseek-ai-challenges-chatgpt-google/3463704 digialps.com/is-openais-new-think-feature-a-game-changer-or-just-playing-catch-up/Entdecken Sie die Vorteile gegenüber ChatGPT Plus
Sie nutzen bereits ChatGPT Plus? Das ist ein guter Anfang! Aber stellen Sie sich vor, Sie hätten Zugang zu allen führenden KI-Modellen weltweit, könnten mit Ihren eigenen Dokumenten arbeiten und nahtlos im Team kollaborieren.
Die professionelle KI-Plattform für Unternehmen – leistungsstärker, flexibler und sicherer als ChatGPT Plus. Mit über 50 Modellen, DSGVO-konformer Infrastruktur und tiefgreifender Integration in Unternehmensprozesse.
❌ Kein strukturierter Dokumentenvergleich
❌ Keine Bearbeitung im Dokumentkontext
❌ Keine Integration von Unternehmenswissen
✅ Gezielter Dokumentenvergleich mit Custom-Prompts
✅ Kontextbewusste Textbearbeitung im Editor
✅ Wissensbasierte Analyse & Zusammenfassungen
Erstellen Sie leistungsstarke Wissensdatenbanken aus Ihren Unternehmensdokumenten.Mindverse Studio verknüpft diese direkt mit der KI – für präzise, kontextbezogene Antworten auf Basis Ihres spezifischen Know-hows.DSGVO-konform, transparent und jederzeit nachvollziehbar.
❌ Nur ein Modellanbieter (OpenAI)
❌ Keine Modellauswahl pro Use Case
❌ Keine zentrale Modellsteuerung für Teams
✅ Zugriff auf über 50 verschiedene KI-Modelle
✅ Modellauswahl pro Prompt oder Assistent
✅ Zentrale Steuerung auf Organisationsebene
❌ Keine echte Teamkollaboration
❌ Keine Rechte- oder Rollenverteilung
❌ Keine zentrale Steuerung oder Nachvollziehbarkeit
✅ Teamübergreifende Bearbeitung in Echtzeit
✅ Granulare Rechte- und Freigabeverwaltung
✅ Zentrale Steuerung & Transparenz auf Organisationsebene
Nutzen Sie Mindverse Studio als zentrale Plattform für abteilungsübergreifende Zusammenarbeit.Teilen Sie Wissen, erstellen Sie gemeinsame Workflows und integrieren Sie KI nahtlos in Ihre täglichen Prozesse – sicher, skalierbar und effizient.Mit granularen Rechten, transparenter Nachvollziehbarkeit und Echtzeit-Kollaboration.
Sehen Sie Mindverse Studio in Aktion. Buchen Sie eine persönliche 30-minütige Demo.
🎯 Kostenlose Demo buchenLernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen