KI für Ihr Unternehmen – Jetzt Demo buchen

Innovationen in der Sprachverarbeitung durch MOSS Transcribe Diarize

Kategorien:
No items found.
Freigegeben:
January 7, 2026

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

1
🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

2
🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

3
⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

4
🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

5
👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Inhaltsverzeichnis

    mindverse studio – Ihre Plattform für digitale Effizienz

    Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.
    Mehr über Mindverse Studio erfahren

    Das Wichtigste in Kürze

    • Forschende des OpenMOSS-Teams haben "MOSS Transcribe Diarize" entwickelt, ein multimodales Large Language Model (MLLM) für die End-to-End-Transkription mit Sprecherdiarisierung.
    • Dieses System verarbeitet Audioaufnahmen von bis zu 90 Minuten Länge in einem einzigen Durchgang und identifiziert dabei nicht nur den gesprochenen Text, sondern auch, wer wann gesprochen hat.
    • Im Gegensatz zu traditionellen modularen Ansätzen, die separate Systeme für Spracherkennung und Sprecherdiarisierung nutzen, vermeidet MOSS Transcribe Diarize die Fehlerfortpflanzung und Kontextbeschränkungen.
    • Das Modell zeigt eine überlegene Leistung im Vergleich zu kommerziellen Lösungen, insbesondere bei der Sprecherzuordnung in komplexen, mehrsprachigen Umgebungen und langen Gesprächen.
    • Ein zentraler Innovationspunkt ist die Kontextfenstergröße von 128.000 Token, die eine kohärente Verarbeitung langer Audioaufnahmen ermöglicht.
    • Die Entwicklung wurde durch ein umfassendes Trainingsdatenset, bestehend aus realen und synthetisch generierten Daten, unterstützt.

    Fortschritte in der Sprachverarbeitung: Einblicke in MOSS Transcribe Diarize

    Die automatische Verarbeitung gesprochener Sprache ist ein Forschungsfeld mit weitreichenden praktischen Anwendungen. Eine der komplexesten Herausforderungen in diesem Bereich ist die Kombination von genauer Spracherkennung (Automatic Speech Recognition, ASR) mit der Sprecherdiarisierung (Speaker Diarization, SD) – also der Fähigkeit, zu erkennen, wer wann gesprochen hat. Traditionelle Ansätze unterteilen diese Aufgabe oft in separate Module, was zu einer Kumulation von Fehlern und Schwierigkeiten bei der Kontextwahrung führen kann. Eine jüngste Entwicklung durch das OpenMOSS-Team, das System "MOSS Transcribe Diarize", verspricht hier einen signifikanten Fortschritt durch einen integrierten End-to-End-Ansatz.

    Die Herausforderung der sprecherattribuierten Transkription

    Die sprecherattribuierte, zeitgestempelte Transkription (Speaker-Attributed, Time-Stamped Transcription, SATS) ist entscheidend für die Analyse von Gesprächen, Besprechungen oder Interviews. Bisherige modulare Systeme, die ASR und SD getrennt voneinander behandeln, sind mit spezifischen Problemen konfrontiert:

    • Fehlerfortpflanzung: Fehler in einem Modul können sich auf nachfolgende Module auswirken und die Gesamtgenauigkeit beeinträchtigen.
    • Begrenzte Kontextfenster: Viele Systeme können nur kurze Audioabschnitte effektiv verarbeiten, was den Verlust des globalen Gesprächskontextes zur Folge haben kann.
    • Inkonsistenz der Sprecheridentität: Über längere Gesprächsverläufe hinweg kann es vorkommen, dass Sprecher nicht konsistent identifiziert werden.

    Diese Limitierungen erschweren die zuverlässige Anwendung in realen Szenarien.

    MOSS Transcribe Diarize: Ein integrierter Ansatz

    MOSS Transcribe Diarize, ein multimodales Large Language Model (MLLM), stellt einen End-to-End-Ansatz dar, der Transkription, Sprecherzuordnung und Zeitstempelvorhersage in einem einzigen, kohärenten Rahmen vereint. Diese Integration ist darauf ausgelegt, die genannten Probleme zu überwinden.

    Architektur und technischer Aufbau

    Das System integriert einen Audio-Encoder mit einem Projektionsmodul, das multisprecher-akustische Embeddings in den Feature-Raum eines vortrainierten Text-Sprachmodells überführt. Dies ermöglicht eine gemeinsame Modellierung von Sprecheridentitäten und lexikalischen Inhalten.

    Eine bemerkenswerte Innovation ist die Art und Weise, wie temporale Informationen kodiert werden. Anstatt auf absolute Positionsindizes zurückzugreifen, die bei langen Aufnahmen an Effektivität verlieren, repräsentiert das Modell Zeitinformationen als formatierten Zeitstempeltext, der strategisch zwischen Audio-Encoder-Chunks eingefügt wird. Dies trägt zur stabilen und präzisen Zeitstempelgenerierung bei.

    Die größte Stärke des Modells liegt in seinem Kontextfenster von 128.000 Token. Diese Kapazität ermöglicht die Verarbeitung von bis zu 90 Minuten Audio in einem einzigen Durchgang. Dies ist ein entscheidender Faktor, um die Kontinuität des Diskurses zu wahren, eine langfristige Sprechererinnerung zu gewährleisten und das "Identitäts-Driften" zu verhindern, das bei der Verarbeitung langer Gespräche in kleineren Segmenten häufig auftritt.

    Trainingsmethodik und Datengrundlage

    Die Robustheit von MOSS Transcribe Diarize basiert auf einem sorgfältig zusammengestellten Datensatz. Dieser kombiniert reale Daten ("in-the-wild") mit strategisch simulierten Daten. Zu den realen Daten gehören mehrsprachige Audioaufnahmen aus dem Internet, der AISHELL-4-Datensatz, der Unterhaltungsaufnahmen aus Konferenzräumen enthält, sowie intern kuratierte Datensätze von Podcasts und Filmdialogen.

    Um der Knappheit an hochwertigen, realen Multisprecher-Aufnahmen entgegenzuwirken, wurde eine ausgeklügelte Simulationsstrategie angewendet. Ein steuerbarer probabilistischer Simulator generiert synthetische Multisprecher-Gespräche durch:

    • Auswahl von 2 bis 12 verschiedenen Sprechern aus einem Einzelsprecher-Äußerungspool.
    • Aufteilung der Äußerungen in zusammenhängende Wortsequenzen.
    • Platzierung der Segmente auf einer Zeitachse mit Gauß-verteilten Zwischenraum-Pausen.
    • Ermöglichung kontrollierter Überlappungen (maximal 80 % des kürzeren Segments).
    • Anwendung akustischer Augmentierung mit realem Rauschen und Nachhall.

    Dieser Simulationsansatz liefert Trainingsdaten mit realistischen überlappenden Sprachmustern und präzisen Ground-Truth-Labels für Transkription und Sprecherzuordnung.

    Leistung und experimentelle Ergebnisse

    Die Evaluation von MOSS Transcribe Diarize erfolgte anhand von drei Benchmarks:

    • AISHELL-4: Langform-Besprechungen (durchschnittlich 38 Minuten, 5-7 Sprecher).
    • Podcast: Erweiterte Interviews.
    • Movies: Kurze, überlappungsreiche Segmente in mehreren Sprachen.

    Die Leistung wurde mittels Character Error Rate (CER) für die Transkriptionsgenauigkeit und Concatenated Minimum-Permutation CER (cpCER) für die kombinierte Transkriptions- und Sprecherzuordnungsleistung bewertet.

    Auf dem AISHELL-4-Datensatz erreichte MOSS Transcribe Diarize einen CER von 15,43 % und einen cpCER von 20,04 %. Die Differenz (Δcp = 4,61 %) war signifikant niedriger als bei konkurrierenden Systemen, was auf eine überlegene Sprecherzuordnungsgenauigkeit hindeutet. Kommerzielle Systeme wie Doubao (9,68 %) und ElevenLabs (18,36 %) zeigten deutlich höhere Δcp-Werte.

    Im Podcast-Datensatz erzielte das Modell mit 4,46 % (CER) und 6,97 % (cpCER) die niedrigsten Werte aller getesteten Systeme. Der Δcp-Wert von 2,50 % war erneut der kleinste, was eine zuverlässige Sprecherzuordnung auch bei häufigem Sprecherwechsel über längere Zeiträume belegt.

    Beim Movies-Datensatz, der kurze, überlappungsreiche Segmente in mehreren Sprachen umfasst, erreichte MOSS Transcribe Diarize einen cpCER von 13,36 % mit einem Δcp von 5,86 %. Hier zeigten kommerzielle Systeme zwar teilweise konkurrenzfähige CERs, ihre Δcp-Werte waren jedoch deutlich höher, was auf Schwierigkeiten bei der Sprecherzuordnung bei dichten Überlappungen hinweist.

    Einzigartige Beiträge und Unterscheidungsmerkmale

    MOSS Transcribe Diarize zeichnet sich durch mehrere Punkte aus:

    • End-to-End-Architektur: Im Gegensatz zu modularen Systemen optimiert dieses Modell Transkription, Sprecherzuordnung und Zeitstempelvorhersage gemeinsam, wodurch Fehlerfortpflanzungen vermieden werden.
    • Verarbeitung langer Kontexte: Das 128.000-Token-Kontextfenster ermöglicht die Verarbeitung von Audioaufnahmen in Besprechungslänge ohne Segmentierung, wodurch globaler Kontext und Sprecherkonsistenz erhalten bleiben.
    • Native Zeitstempelgenerierung: Das Modell erzeugt segmentbezogene Zeitstempel direkt als Teil des Generierungsprozesses, wodurch externe Ausrichtungstools überflüssig werden.
    • Operative Robustheit: Während einige universelle multimodale Modelle (GPT-4o, Gemini) bei der Verarbeitung langer Audioaufnahmen Schwierigkeiten hatten, zeigte MOSS Transcribe Diarize eine konsistente Zuverlässigkeit.
    • Datenbeitrag: Die Bereitstellung der kuratierten Podcast- und Movies-Datensätze als Open Source stellt wertvolle Ressourcen für die Forschungsgemeinschaft dar.

    Implikationen und zukünftige Richtungen

    Diese Arbeit etabliert ein neues Paradigma für die sprecherattribuierte Transkription, das Anwendungen wie Besprechungsanalysen, Callcenter-Automatisierung und unterstützende Technologien erheblich beeinflussen könnte. Die Fähigkeit, die Sprecherkonsistenz über stundenlange Gespräche hinweg zu wahren, adressiert eine kritische Einschränkung, die die praktische Anwendung von SATS-Systemen bisher behindert hat.

    Die Forschung eröffnet vielversprechende Wege für zukünftige Entwicklungen, darunter streamfähige SATS-Implementierungen, präzisere Methoden zur Zeitstempelbewertung und eine verbesserte mehrsprachige Robustheit. Der hier demonstrierte End-to-End-Ansatz könnte auch ähnliche vereinheitlichte Architekturen für andere komplexe multimodale Aufgaben inspirieren, die eine gemeinsame Modellierung mehrerer voneinander abhängiger Ziele erfordern.

    Die überlegene Leistung gegenüber kommerziellen Systemen, kombiniert mit dem Engagement für den Datenaustausch, positioniert diese Arbeit als praktischen Fortschritt und als Katalysator für weitere Forschung im Bereich der multimodalen Sprachverarbeitung.

    Bibliographie

    - MOSS Transcribe Diarize: Accurate Transcription with Speaker Diarization. AlphaXiv. URL: https://www.alphaxiv.org/overview/2601.01554 - MOSS Transcribe Diarize - a OpenMOSS-Team Collection. Hugging Face. URL: https://huggingface.co/collections/OpenMOSS-Team/moss-transcribe-diarize - MOSS: Unified MLLM for 90-Minute Transcription. YouTube. URL: https://www.youtube.com/watch?v=88A8OJHgfXM - OpenMOSS - Hugging Face. Hugging Face. URL: https://huggingface.co/OpenMOSS-Team/models - A curated list of awesome Speaker Diarization papers ... - GitHub. GitHub. URL: https://github.com/wq2012/awesome-diarization - Train Short, Infer Long: Speech-LLM Enables Zero-Shot Streamable Joint ASR and Diarization on Long Audio. ArXiv. URL: https://arxiv.org/abs/2511.16046 - Reverb: Open-Source ASR and Diarization from Rev. ArXiv. URL: https://arxiv.org/abs/2410.03930 - Transcribe-to-Diarize: Neural Speaker Diarization for Unlimited ... ADS. URL: https://ui.adsabs.harvard.edu/abs/2021arXiv211003151K/abstract

    Artikel jetzt als Podcast anhören

    Kunden die uns vertrauen:
    Arise Health logoArise Health logoThe Paak logoThe Paak logoOE logo2020INC logoEphicient logo
    und viele weitere mehr!

    Bereit für den nächsten Schritt?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen