Cohere präsentiert Command A+: Effizientes Sprachmodell mit Open-Source-Lizenz

Kategorien:

No items found.

Freigegeben:

May 22, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Cohere hat sein neues großes Sprachmodell (LLM) Command A+ veröffentlicht, das sich durch seine Effizienz und Zugänglichkeit auszeichnet.
Das Modell ist als Sparse Mixture-of-Experts (MoE) Transformer konzipiert und umfasst 218 Milliarden Parameter, von denen jedoch nur 25 Milliarden aktiv sind.
Ein zentraler Aspekt der Veröffentlichung ist die W4A4-Quantisierung, die eine erhebliche Reduzierung des Speicherbedarfs bei nahezu gleichbleibender Leistung ermöglicht.
Command A+ kann mit nur zwei NVIDIA H100 GPUs oder einer NVIDIA Blackwell B200 GPU betrieben werden.
Das Modell wird unter einer Apache 2.0 Open-Source-Lizenz bereitgestellt, was eine breite Nutzung und Anpassung für Unternehmen und Entwickler ermöglicht.
Es bietet verbesserte Multimodalität, Werkzeugnutzung und native Zitationserstellung, was für geschäftskritische Anwendungen relevant ist.
Die Tokenisierungs-Effizienz für nicht-europäische Sprachen wurde erheblich verbessert, was zu geringeren Betriebskosten führt.

Cohere, ein Unternehmen im Bereich der Künstlichen Intelligenz, hat mit der Veröffentlichung seines neuesten großen Sprachmodells, Command A+, auf sich aufmerksam gemacht. Dieses Modell ist nun über Hugging Face verfügbar und integriert eine W4A4-Quantisierung, die als signifikante Entwicklung in der effizienten Bereitstellung von KI-Modellen betrachtet wird. Die Quantisierung ermöglicht eine drastische Reduzierung des Speicherbedarfs bei einer nur minimalen Beeinträchtigung der Leistungsfähigkeit.

Architektur und Effizienz von Command A+

Command A+ basiert auf einer Sparse Mixture-of-Experts (MoE) Transformer-Architektur. Obwohl das Modell insgesamt 218 Milliarden Parameter besitzt, sind in jedem Generierungsschritt lediglich 25 Milliarden Parameter aktiv. Diese sparsame Architektur ist entscheidend für die Effizienz des Modells, da sie es ermöglicht, die umfassende Wissensbasis und die komplexen Schlussfolgerungsfähigkeiten eines großen Modells beizubehalten, während der Rechenaufwand und der Energieverbrauch reduziert werden. Dies geschieht, indem eingehende Anfragen nur an die spezialisierten neuronalen Netze weitergeleitet werden, die für die Bearbeitung am besten geeignet sind, wodurch der Rest des Modells inaktiv bleibt.

Quantisierungstechnologien und Hardware-Anforderungen

Ein Schlüsselelement der neuen Veröffentlichung ist die W4A4-Quantisierung. Diese Technologie komprimiert den Speicherbedarf des Modells, indem die Präzision seiner Parameter reduziert wird. Command A+ ist in verschiedenen Quantisierungsstufen verfügbar: 16-bit (BF16), 8-bit (FP8) und dem hochkomprimierten 4-bit (W4A4) Format. Die W4A4-Quantisierung ist besonders hervorzuheben, da sie es ermöglicht, das Modell auf vergleichsweise geringer Hardware zu betreiben – konkret auf nur zwei NVIDIA H100 GPUs oder einer einzelnen NVIDIA Blackwell B200 GPU. Traditionell leiden Modelle bei starker Komprimierung unter einem "Quantisierungs-Tax", der zu sichtbaren Leistungseinbußen bei komplexen Problemlösungen führt. Cohere hat diesem Effekt entgegengewirkt, indem nur die MoE-Experten auf 4-bit quantisiert wurden, während die kritischen Aufmerksamkeitswege in voller Präzision beibehalten und durch eine Technik namens Quantization-Aware Distillation (QAD) ergänzt wurden. Dies resultiert in einer nahezu verlustfreien Komprimierung.

Die Geschwindigkeitsvorteile sind ebenfalls bemerkenswert. Laut Cohere erreicht die W4A4-Quantisierung bei geringer Parallelität eine Ausgabe von 375 Tokens pro Sekunde (TOPS) mit einer Time-to-First-Token (TTFT)-Latenz von nur 113 Millisekunden. Dies bedeutet eine Steigerung der Ausgabegeschwindigkeit um bis zu 63% und eine Reduzierung der Latenz um 17% im Vergleich zum Vorgängermodell Command A Reasoning.

Verbesserte Tokenisierung und Multilingualität

Cohere hat zudem den Tokenizer des Modells überarbeitet. Dieser ist nun für den globalen Unternehmenseinsatz optimiert und bietet native Unterstützung für 48 Sprachen. Insbesondere wurde die Tokenisierungs-Effizienz für nicht-europäische Sprachen verbessert, was die Anzahl der benötigten Tokens zur Generierung von Antworten im Arabischen um 20%, im Japanischen um 18% und im Koreanischen um 16% reduziert. Da die Inferenzkosten pro Token berechnet werden, führt dies direkt zu niedrigeren Betriebskosten für globale und mehrsprachige Implementierungen.

Agentische Workflows und Benchmarks

Command A+ wurde speziell für "agentische" Aufgaben entwickelt. Hierbei agiert die KI autonom oder semi-autonom, nutzt externe Tools, fragt Datenbanken ab und synthetisiert Informationen über mehrere Schritte hinweg. Die Leistungssteigerungen gegenüber der Vorgängergeneration sind signifikant:

Auf 𝜏²-Bench Telecom, das komplexe Schlussfolgerungen testet, stieg die Punktzahl von 37% auf 85%.
Bei Terminal-Bench Hard, das die agentische Code-Leistung misst, verbesserte sich die Leistung von 3% auf 25%.
In komplexer Mathematik erreichte das Modell 90% auf AIME 25, gegenüber 57% zuvor.

Diese Ergebnisse zeigen, dass Command A+ in reinen Schlussfolgerungs- und Mathematik-Benchmarks mit deutlich größeren Modellen konkurrieren kann, obwohl es mit 25 Milliarden aktiven Parametern eine geringere aktive Parameterzahl aufweist.

Multimodalität und Zitationserstellung

Command A+ ist vollständig multimodal und kann sowohl Text als auch Bilder nativ innerhalb seines 128K-Eingabekontextfensters verarbeiten. Dies macht es besonders effektiv für die Verarbeitung komplexer Dokumente, wie beispielsweise gescannter Rechnungen, Diagramme oder technischer Handbücher. Eine weitere wichtige Funktion ist die native Zitationserstellung. Wenn Command A+ Informationen aus einem externen Tool abruft, synthetisiert es nicht nur die Antwort, sondern generiert explizite "Grounding Spans". Mithilfe spezieller Tags im Output verknüpft das Modell jede faktische Behauptung direkt mit der spezifischen Quellendokumentation oder Datenbankzeile, aus der die Information stammt. Diese Nachvollziehbarkeit ist für Unternehmen in stark regulierten Branchen wie Finanzen, Gesundheitswesen oder Recht entscheidend, da sie das Risiko unentdeckter Halluzinationen minimiert.

Die Apache 2.0 Lizenz und "Sovereign AI"

Im aktuellen KI-Ökosystem ist der Begriff "Open Source" oft mehrdeutig. Viele führende KI-Unternehmen veröffentlichen ihre Modelle unter restriktiven kommerziellen Lizenzen oder Nutzungsbedingungen, die großen Unternehmen die kommerzielle Nutzung oder das Training konkurrierender KI-Systeme explizit untersagen. Cohere hat bei Command A+ einen anderen Ansatz gewählt und das Modell unter der Apache 2.0 Lizenz veröffentlicht. Diese Lizenz ist eine von der Open Source Initiative (OSI) anerkannte Open-Source-Lizenz, die es jedem – von unabhängigen Entwicklern bis hin zu Fortune-500-Unternehmen – erlaubt, das Modell zu nutzen, zu modifizieren, zu verbreiten und kommerziell einzusetzen, ohne Lizenzgebühren zu zahlen oder restriktive Wettbewerbsklauseln einzuhalten.

Für Unternehmen bedeutet diese Lizenz eine vollständige Anbieterunabhängigkeit. Eine Firma kann die Command A+-Gewichte herunterladen, diese auf hochklassifizierten internen Daten feinabstimmen und auf eigenen privaten Servern oder luftdichten Netzwerken bereitstellen. Dies ist eine Realisierung des Konzepts der "Sovereign AI", bei der Unternehmen die vollständige Kontrolle über ihre KI-Infrastruktur und -Modelle behalten.

Fazit und Ausblick

Die Veröffentlichung von Command A+ markiert einen Reifegrad im Open-Source-KI-Ökosystem. Durch die Kombination von fortschrittlicher Schlussfolgerung, robuster agentischer Werkzeugnutzung und multimodalen Fähigkeiten mit einer auf Hardware-Effizienz ausgelegten Architektur verändert Cohere die Bereitstellung von KI-Modellen für Unternehmen. Der Bedarf an massiven, zentralisierten Rechenclustern war lange Zeit ein Engpass für Unternehmen, die Datensicherheit und Kostenkontrolle priorisieren. Durch die Demokratisierung des Zugangs zu einem Modell dieses Kalibers unter einer echten Open-Source-Lizenz bietet Cohere dem Unternehmensmarkt genau das, wonach er gefragt hat: die Leistungsfähigkeit der Cloud, sicher in den eigenen Serverräumen betreibbar.

Die sofortige Integration in wichtige Open-Source-Inferenz-Frameworks wie Hugging Face und vLLM unterstreicht die Relevanz dieser Veröffentlichung für die Entwicklergemeinschaft.

Bibliography - Cohere. (2026, May 20). Introducing: Cohere Command A+. X. - Cohere. (2026, May 21). Command A+ is available on @huggingface with W4A4 quantization. X. - Franzen, C. (2026, May 20). Cohere cracks lossless quantization and native citations with first full Apache 2.0 licensed open model Command A+. VentureBeat. - Davidson, A. (2026, May 21). Cohere Unveils Command A+, Advancing Sovereign And Efficient Enterprise AI Deployment. Metaverse Post. - Sutter, M. (2026, May 21). Cohere Releases Command A+: A 218B Sparse MoE Model for Agentic Workflows That Runs on as Few as Two H100 GPUs. MarkTechPost. - Praison, M. (2026, May 21). Cohere Command A+ Open Source: 218B MoE LLM on Two H100 GPUs. Mervin Praison. - BenchLM.ai. (2026, May 21). Command A+ Benchmarks 2026: Scores, Rankings & Performance. - Hugging Face. (n.d.). CohereLabs/c4ai-command-r-plus. - Hugging Face. (n.d.). Tonic/c4ai-command-a-03-2025-4bit_nf4_no_double. - Hugging Face. (n.d.). qep/qep-1bit-extreme. - Hugging Face. (n.d.). mradermacher/c4ai-command-r-plus-GGUF. - Hugging Face. (n.d.). amd/c4ai-command-r-plus-FP8-KV.