Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die automatische Verarbeitung gesprochener Sprache ist ein Forschungsfeld mit weitreichenden praktischen Anwendungen. Eine der komplexesten Herausforderungen in diesem Bereich ist die Kombination von genauer Spracherkennung (Automatic Speech Recognition, ASR) mit der Sprecherdiarisierung (Speaker Diarization, SD) – also der Fähigkeit, zu erkennen, wer wann gesprochen hat. Traditionelle Ansätze unterteilen diese Aufgabe oft in separate Module, was zu einer Kumulation von Fehlern und Schwierigkeiten bei der Kontextwahrung führen kann. Eine jüngste Entwicklung durch das OpenMOSS-Team, das System "MOSS Transcribe Diarize", verspricht hier einen signifikanten Fortschritt durch einen integrierten End-to-End-Ansatz.
Die sprecherattribuierte, zeitgestempelte Transkription (Speaker-Attributed, Time-Stamped Transcription, SATS) ist entscheidend für die Analyse von Gesprächen, Besprechungen oder Interviews. Bisherige modulare Systeme, die ASR und SD getrennt voneinander behandeln, sind mit spezifischen Problemen konfrontiert:
Diese Limitierungen erschweren die zuverlässige Anwendung in realen Szenarien.
MOSS Transcribe Diarize, ein multimodales Large Language Model (MLLM), stellt einen End-to-End-Ansatz dar, der Transkription, Sprecherzuordnung und Zeitstempelvorhersage in einem einzigen, kohärenten Rahmen vereint. Diese Integration ist darauf ausgelegt, die genannten Probleme zu überwinden.
Das System integriert einen Audio-Encoder mit einem Projektionsmodul, das multisprecher-akustische Embeddings in den Feature-Raum eines vortrainierten Text-Sprachmodells überführt. Dies ermöglicht eine gemeinsame Modellierung von Sprecheridentitäten und lexikalischen Inhalten.
Eine bemerkenswerte Innovation ist die Art und Weise, wie temporale Informationen kodiert werden. Anstatt auf absolute Positionsindizes zurückzugreifen, die bei langen Aufnahmen an Effektivität verlieren, repräsentiert das Modell Zeitinformationen als formatierten Zeitstempeltext, der strategisch zwischen Audio-Encoder-Chunks eingefügt wird. Dies trägt zur stabilen und präzisen Zeitstempelgenerierung bei.
Die größte Stärke des Modells liegt in seinem Kontextfenster von 128.000 Token. Diese Kapazität ermöglicht die Verarbeitung von bis zu 90 Minuten Audio in einem einzigen Durchgang. Dies ist ein entscheidender Faktor, um die Kontinuität des Diskurses zu wahren, eine langfristige Sprechererinnerung zu gewährleisten und das "Identitäts-Driften" zu verhindern, das bei der Verarbeitung langer Gespräche in kleineren Segmenten häufig auftritt.
Die Robustheit von MOSS Transcribe Diarize basiert auf einem sorgfältig zusammengestellten Datensatz. Dieser kombiniert reale Daten ("in-the-wild") mit strategisch simulierten Daten. Zu den realen Daten gehören mehrsprachige Audioaufnahmen aus dem Internet, der AISHELL-4-Datensatz, der Unterhaltungsaufnahmen aus Konferenzräumen enthält, sowie intern kuratierte Datensätze von Podcasts und Filmdialogen.
Um der Knappheit an hochwertigen, realen Multisprecher-Aufnahmen entgegenzuwirken, wurde eine ausgeklügelte Simulationsstrategie angewendet. Ein steuerbarer probabilistischer Simulator generiert synthetische Multisprecher-Gespräche durch:
Dieser Simulationsansatz liefert Trainingsdaten mit realistischen überlappenden Sprachmustern und präzisen Ground-Truth-Labels für Transkription und Sprecherzuordnung.
Die Evaluation von MOSS Transcribe Diarize erfolgte anhand von drei Benchmarks:
Die Leistung wurde mittels Character Error Rate (CER) für die Transkriptionsgenauigkeit und Concatenated Minimum-Permutation CER (cpCER) für die kombinierte Transkriptions- und Sprecherzuordnungsleistung bewertet.
Auf dem AISHELL-4-Datensatz erreichte MOSS Transcribe Diarize einen CER von 15,43 % und einen cpCER von 20,04 %. Die Differenz (Δcp = 4,61 %) war signifikant niedriger als bei konkurrierenden Systemen, was auf eine überlegene Sprecherzuordnungsgenauigkeit hindeutet. Kommerzielle Systeme wie Doubao (9,68 %) und ElevenLabs (18,36 %) zeigten deutlich höhere Δcp-Werte.
Im Podcast-Datensatz erzielte das Modell mit 4,46 % (CER) und 6,97 % (cpCER) die niedrigsten Werte aller getesteten Systeme. Der Δcp-Wert von 2,50 % war erneut der kleinste, was eine zuverlässige Sprecherzuordnung auch bei häufigem Sprecherwechsel über längere Zeiträume belegt.
Beim Movies-Datensatz, der kurze, überlappungsreiche Segmente in mehreren Sprachen umfasst, erreichte MOSS Transcribe Diarize einen cpCER von 13,36 % mit einem Δcp von 5,86 %. Hier zeigten kommerzielle Systeme zwar teilweise konkurrenzfähige CERs, ihre Δcp-Werte waren jedoch deutlich höher, was auf Schwierigkeiten bei der Sprecherzuordnung bei dichten Überlappungen hinweist.
MOSS Transcribe Diarize zeichnet sich durch mehrere Punkte aus:
Diese Arbeit etabliert ein neues Paradigma für die sprecherattribuierte Transkription, das Anwendungen wie Besprechungsanalysen, Callcenter-Automatisierung und unterstützende Technologien erheblich beeinflussen könnte. Die Fähigkeit, die Sprecherkonsistenz über stundenlange Gespräche hinweg zu wahren, adressiert eine kritische Einschränkung, die die praktische Anwendung von SATS-Systemen bisher behindert hat.
Die Forschung eröffnet vielversprechende Wege für zukünftige Entwicklungen, darunter streamfähige SATS-Implementierungen, präzisere Methoden zur Zeitstempelbewertung und eine verbesserte mehrsprachige Robustheit. Der hier demonstrierte End-to-End-Ansatz könnte auch ähnliche vereinheitlichte Architekturen für andere komplexe multimodale Aufgaben inspirieren, die eine gemeinsame Modellierung mehrerer voneinander abhängiger Ziele erfordern.
Die überlegene Leistung gegenüber kommerziellen Systemen, kombiniert mit dem Engagement für den Datenaustausch, positioniert diese Arbeit als praktischen Fortschritt und als Katalysator für weitere Forschung im Bereich der multimodalen Sprachverarbeitung.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen