Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
In der dynamischen Landschaft der Künstlichen Intelligenz stellt die Entwicklung von Spracherkennungstechnologien einen zentralen Fortschritt dar. Vor diesem Hintergrund hat das Unternehmen Cohere kürzlich ein neues Modell namens "Cohere Transcribe" vorgestellt. Dieses Open-Source-Modell, das auf der Plattform Hugging Face verfügbar ist, beansprucht, neue Massstäbe in der automatischen Spracherkennung (ASR) zu setzen.
Cohere Transcribe ist ein Encoder-Decoder-Transformer-Modell mit 2 Milliarden Parametern. Die Architektur basiert auf einem Fast-Conformer Encoder und einem leichten Decoder. Eine Besonderheit dieses Designs ist die Verteilung der Modellkapazität: Über 90 % der Parameter sind dem Encoder zugewiesen. Dies ermöglicht eine detaillierte Verarbeitung von Audioeingaben und eine effiziente Umwandlung in Text.
Das Modell wurde von Grund auf neu trainiert, anstatt auf bestehenden Modellen wie Whisper aufzubauen. Für das Training wurden 500.000 Stunden kuratierter Audio-Transkript-Paare verwendet. Um die Robustheit zu erhöhen, wurden nach Fehleranalysen synthetische Daten hinzugefügt und der Trainingsprozess um Rauschunterdrückung erweitert. Ein mehrsprachiger BPE-Tokenizer mit 16.000 Tokens, der auf In-Distribution-Daten trainiert wurde, unterstützt die Verarbeitung verschiedener Sprachen.
Das Modell ist darauf ausgelegt, Audio-Wellenformen in Log-Mel-Spektrogramme umzuwandeln. Bei Bedarf wird Audio automatisch auf 16 kHz resampelt, und Mehrkanal-Eingaben werden vor der Verarbeitung zu einem Monosignal gemittelt.
Cohere Transcribe hat auf dem Hugging Face Open ASR Leaderboard eine durchschnittliche Wortfehlerrate (WER) von 5,42 % in englischer Sprache erreicht. Dieser Wert positioniert das Modell vor anderen etablierten Lösungen, darunter OpenAI's Whisper Large v3 (7,44 %), ElevenLabs Scribe v2 (5,83 %) und NVIDIA Canary Qwen 2.5B (5,63 %). Die Benchmarks umfassten verschiedene Datensätze wie AMI (Besprechungstranskriptionen), Earnings22 (Finanzgespräche), GigaSpeech (gemischtes Audio), LibriSpeech Clean und Other, SPGI (Finanzdaten), Tedlium (Vorlesungen) und VoxPopuli (parlamentarische Reden).
Neben den automatisierten Metriken wurden auch menschliche Bewertungen durchgeführt. Dabei wurde Cohere Transcribe in einem direkten Vergleich gegenüber Whisper Large v3 in 64 % der Fälle und gegenüber NVIDIA Canary in 67 % der Fälle bevorzugt. Im Vergleich zu IBM Granite 4.0 1B Speech stieg die Präferenzrate auf 78 %, was auf eine verbesserte subjektive Transkriptionsqualität hindeutet, die über die reinen WER-Zahlen hinausgeht.
Das Modell unterstützt insgesamt 14 Sprachen: Deutsch, Englisch, Französisch, Italienisch, Spanisch, Portugiesisch, Griechisch, Niederländisch, Polnisch, Arabisch, Chinesisch (Mandarin), Japanisch, Koreanisch und Vietnamesisch. Diese breite Sprachabdeckung macht es für eine Vielzahl internationaler Anwendungen relevant.
Cohere Transcribe ist primär für den Unternehmenseinsatz konzipiert. Potenzielle Anwendungsfälle umfassen:
Das Modell bietet eine hohe Effizienz, mit einem Offline-Durchsatz, der bis zu dreimal schneller ist als bei vergleichbaren dedizierten ASR-Modellen ähnlicher Grösse. Dies wird durch die native Unterstützung variabler Audiolängen und eine Optimierung der Batch-Inferenz erreicht.
Cohere Transcribe ist unter der Apache 2.0 Lizenz auf Hugging Face verfügbar. Für die Integration in bestehende Systeme wird die Nutzung der Hugging Face Transformers-Bibliothek empfohlen (transformers>=5.4.0). Darüber hinaus ist eine Integration mit vLLM möglich, um den Durchsatz im Produktionsbetrieb weiter zu optimieren. Das Modell kann auch auf Apple Silicon über mlx-audio und im Browser über transformers.js mit WebGPU ausgeführt werden. Eine Rust-Client-Bibliothek (cohere_transcribe_rs) steht für tiefere Integrationen zur Verfügung.
Für Unternehmen, die keine eigene Infrastruktur betreiben möchten, bietet Cohere den Zugang über seine API (mit Ratenbegrenzungen für kostenlose Nutzung) oder über die Model Vault-Plattform an, die eine verwaltete Inferenz in der privaten Cloud ermöglicht.
Trotz der beeindruckenden Leistung weist Cohere Transcribe einige Einschränkungen auf, die für den praktischen Einsatz relevant sind:
Cohere plant, Transcribe tiefer in seine AI-Agenten-Orchestrierungsplattform namens North zu integrieren, um es zu einer umfassenderen Grundlage für "Enterprise Speech Intelligence" zu entwickeln.
Cohere Transcribe stellt einen signifikanten Fortschritt in der Open-Source-Spracherkennung dar und bietet eine hohe Genauigkeit sowie Effizienz für eine Vielzahl von Geschäftsanwendungen. Die Bereitstellung als Open-Source-Modell unter der Apache 2.0 Lizenz und die vielfältigen Integrationsmöglichkeiten sind für Unternehmen attraktiv, die eine flexible und leistungsstarke Transkriptionslösung suchen. Die bekannten Einschränkungen, insbesondere das Fehlen von Zeitstempeln und Diarisierung, sollten bei der Implementierung berücksichtigt werden, wobei zukünftige Updates diese Lücken schliessen könnten.
Bibliography: - Introducing Cohere-transcribe: state-of-the-art speech recognition. Hugging Face Blog, 26. März 2026. - CohereLabs/cohere-transcribe-03-2026. Hugging Face Model Card. - Cohere Transcribe Released. Reddit - r/LocalLLaMA, 26. März 2026. - Cohere's Open-Source Transcribe Tops ASR Leaderboard. Awesome Agents, Sophie Zhang, 28. März 2026. - Cohere launches an open source voice model specifically for transcription. TechCrunch, Ivan Mehta, 26. März 2026. - Cohere Transcribe: state-of-the-art speech recognition. Cohere Blog, 26. März 2026. - Cohere releases open source model that tops speech recognition benchmarks. The Decoder, Matthias Bastian, 27. März 2026. - Cohere Transcribe. Cohere Documentation. - Transcribe. Cohere Product Page.Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen