KI für Ihr Unternehmen – Jetzt Demo buchen

Fortschritte bei proaktiven Hörassistenten zur Verbesserung der Gesprächsverständlichkeit

Kategorien:
No items found.
Freigegeben:
November 19, 2025

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

1
🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

2
🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

3
⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

4
🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

5
👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Inhaltsverzeichnis

    mindverse studio – Ihre Plattform für digitale Effizienz

    Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.
    Mehr über Mindverse Studio erfahren

    Das Wichtigste in Kürze

    • Proaktive Hörassistenten identifizieren und isolieren Gesprächspartner in Echtzeit anhand binauraler Audiodaten.
    • Das System nutzt die eigene Sprache des Trägers als Anker und die Dynamik des Gesprächsverlaufs zur Erkennung relevanter Sprecher.
    • Eine Dual-Modell-Architektur ermöglicht Echtzeitverarbeitung mit geringer Latenz und die Erfassung längerfristiger Gesprächsdynamiken.
    • Umfassende Tests zeigen eine hohe Genauigkeit bei der Identifizierung von Gesprächspartnern und eine deutliche Verbesserung der Sprachqualität in realen Szenarien.
    • Die Technologie stellt einen Fortschritt für Hörhilfen dar, die sich proaktiv an Gesprächsdynamiken anpassen, ohne explizite Benutzereingaben zu erfordern.

    Revolution in der Hörassistenz: Proaktive Systeme zur Gesprächsisolierung

    Die menschliche Fähigkeit, in komplexen akustischen Umgebungen relevante Stimmen zu isolieren – bekannt als das „Cocktailparty-Problem“ – ist bemerkenswert, stösst jedoch in überfüllten Räumen an ihre Grenzen. Für Menschen mit Hörbeeinträchtigungen kann die Unterscheidung überlappender Gespräche zu kognitiver Überlastung und Hörermüdung führen. Bestehende Hörhilfen erfordern oft manuelle Eingriffe, um spezifische Schallquellen auszuwählen, was in Mehrparteiengesprächen oder bei räumlich verteilten Sprechern unpraktisch sein kann.

    Eine aktuelle Forschungsarbeit stellt hierzu eine innovative Lösung vor: proaktive Hörassistenten, die automatisch Gesprächspartner identifizieren und isolieren, ohne explizite Aufforderungen des Nutzers. Dieses System, das auf egozentrischen binauralen Audiodaten basiert, nutzt die eigene Sprache des Trägers als Anker. Durch die Analyse des Gesprächsverhaltens und der Dialogdynamik ist es in der Lage, Gesprächspartner zu erkennen und störende Stimmen zu unterdrücken.

    Technologische Grundlagen und Architektur

    Das Kernstück des Systems bildet eine Dual-Modell-Architektur, die für den Echtzeitbetrieb auf tragbaren Geräten konzipiert ist. Diese Architektur besteht aus zwei Hauptkomponenten:

    • Ein leichtgewichtiges Streaming-Modell, das alle 12,5 ms läuft und eine schnelle, latenzarme Extraktion der Gesprächspartner ermöglicht.
    • Ein langsamer arbeitendes Modell, das weniger häufig (einmal pro Sekunde) ausgeführt wird, um längerfristige Gesprächsdynamiken und Kontextinformationen zu erfassen.

    Diese Kombination gewährleistet sowohl eine sofortige Reaktion als auch ein tiefgreifendes Verständnis des Gesprächsverlaufs. Das System verarbeitet binaurale Audiosignale, die vom Träger erfasst werden. Die eigene Sprache des Trägers wird mittels eines Beamformers isoliert und dient als Referenzpunkt. Basierend auf Merkmalen wie wechselseitigem Sprechen, geringer Überlappung und zeitlicher Koordination identifiziert der Assistent die relevanten Gesprächspartner.

    Herausforderungen und Lösungsansätze

    Die Entwicklung solcher proaktiver Hörassistenten birgt mehrere Herausforderungen:

    1. Identifizierung und Trennung von Gesprächspartnern: In Umgebungen mit mehreren Sprechern muss das System präzise zwischen der Zielkonversation und störenden Gesprächen unterscheiden.
    2. Echtzeitbetrieb mit geringer Latenz: Um ein natürliches Gesprächserlebnis zu gewährleisten, muss die Audioverarbeitung in sehr kurzen Zeitabschnitten (10-20 ms) erfolgen, um die Latenz unterhalb der Wahrnehmungsschwelle zu halten. Das System ist so konzipiert, dass es direkt auf dem Gerät läuft, um Kommunikationsverzögerungen durch die Auslagerung in Smartphones oder die Cloud zu vermeiden.
    3. Generalisierung auf reale, egozentrische Mehrparteienumgebungen: Das System muss in der Lage sein, sich an dynamische Gesprächssituationen anzupassen, in denen Sprecher das Gespräch beginnen oder verlassen.

    Die vorgestellte Methode adressiert diese Herausforderungen durch einen Ansatz, der auf Erkenntnissen aus der natürlichen Sprachverarbeitung (NLP) basiert, insbesondere aus der Vorhersage von Sprecherwechseln, der Sprecherdiarisierung und der Dialogmodellierung.

    Trainingsstrategie und Datensätze

    Um die Generalisierungsfähigkeit des Modells zu gewährleisten, wurde eine mehrstufige Trainingsstrategie angewendet. Da qualitativ hochwertige egozentrische Datensätze mit mehreren Sprechern und komplexen Dynamiken rar sind, wurden nicht-egozentrische Datensätze verwendet und räumlich so aufbereitet, dass sie egozentrische Bedingungen simulieren. Zu den verwendeten Datensätzen gehören:

    • Candor: Ein Datensatz mit 850 Stunden hochwertiger englischer Zwei-Sprecher-Gespräche.
    • RAMC: Ein Datensatz mit 180 Stunden chinesischer Zwei-Sprecher-Gespräche.

    Zusätzlich wurden fünf synthetische Datensätze erstellt, um spezifische Szenarien wie Gespräche mit zwei, drei, vier oder fünf Sprechern sowie Situationen, in denen Sprecher das Gespräch verlassen, zu simulieren. Das Training erfolgte in drei Phasen:

    1. Vortraining: Auf synthetischen Datensätzen und Candor-Mischungen, wobei beide Modelle (Streaming und Embedding) gemeinsam trainiert wurden, um die Zielkonversation zu rekonstruieren.
    2. Simulation egozentrischer Bedingungen: Ersetzung der Ground-Truth-Selbstsprache durch die Ausgabe eines vorab trainierten Beamformers und gemeinsames Training beider Modelle.
    3. Feinabstimmung: Anpassung des Modells an reale Gesprächsbedingungen durch Störung von Pausen- und Überlappungszeiten zwischen den Sprechern, um die Robustheit gegenüber natürlichen Gesprächsdynamiken zu erhöhen.

    Evaluierung und Ergebnisse

    Die Evaluierung des Systems erfolgte anhand von vier Schlüsselmetriken:

    • SISDRi (Scale-Invariant Signal-to-Distortion Ratio improvement): Misst die Verbesserung der Sprachqualität relativ zum verrauschten Eingangssignal.
    • ∆PESQ (Perceptual Evaluation of Speech Quality): Schätzt die wahrgenommene Sprachqualität.
    • Accuracy (Acc): Misst, wie oft der Gesprächspartner korrekt ausgewählt wird.
    • Confusion Rate (CR): Misst, wie oft ein störender Sprecher fälschlicherweise als Zielsprecher ausgewählt wird.

    Die Ergebnisse auf realen 2- und 3-Sprecher-Konversationen, die mit binauraler egozentrischer Hardware von 11 Teilnehmern (insgesamt 6,8 Stunden) gesammelt wurden, zeigten eine signifikante Generalisierungsfähigkeit bei der Identifizierung und Isolierung von Gesprächspartnern in Umgebungen mit mehreren Gesprächen. Die Genauigkeitsraten lagen zwischen 80 % und 92 %, während die Fehlerraten bei 1,5 % bis 2,2 % lagen. Die Sprachqualität der Gesprächspartner verbesserte sich um 7,22 dB bis 11,95 dB (SISDRi).

    Subjektive Benutzerstudie

    Eine Benutzerstudie mit 11 Teilnehmern im Alter von 21 bis 65 Jahren bestätigte die objektiven Messungen. Die Teilnehmer bewerteten die Geräuschunterdrückung, das Gesprächsverständnis und den Höranstrengungsgrad auf einer 5-Punkte-Skala. Das vorgeschlagene System verbesserte die vom Benutzer wahrgenommene Qualität in allen vier Aspekten erheblich, wobei der mittlere Meinungs-Score (MOS) von 1,88 auf 4,30 anstieg.

    Ablationsstudien

    Umfassende Ablationsstudien untersuchten den Einfluss verschiedener Systemkomponenten:

    • Dual-Modell vs. Einzelmodell: Das Dual-Modell übertraf ein einzelnes schnelles Streaming-Modell deutlich, was die Bedeutung der langsameren Kontextmodellierung unterstreicht.
    • Update-Rate für Konversationseinbettungen: Eine schnellere Update-Rate (1 Sekunde vs. 4 Sekunden) führte zu einer besseren Leistung, da das System reaktionsfähiger auf Gesprächsdynamiken reagieren konnte.
    • Sprechereinbettung vs. Selbstsprache: Die Verwendung der Selbstsprache als Anker erwies sich als effektiver als explizite Sprechereinbettungen.
    • Beamforming vs. Ground-Truth-Selbstsprache: Der Einsatz eines Beamformers zur Extraktion der Selbstsprache hatte nur geringe Auswirkungen auf die Leistung im Vergleich zur Ground-Truth-Selbstsprache.
    • Auswirkungen von Sprecherwechselunterbrechungen: Eine Störung der natürlichen Sprecherwechselmuster führte zu einer allmählichen Verschlechterung der Systemleistung, was die Relevanz der erlernten Gesprächsdynamiken bestätigt.
    • Kontextlänge: Ein längerer Kontextzugriff verbesserte die Leistung erheblich, was die Notwendigkeit einer effektiven Modellierung langfristiger Gesprächsdynamiken unterstreicht.

    Echtzeit- und On-Device-Betrieb

    Ein entscheidendes Merkmal des Systems ist seine Fähigkeit zum Echtzeitbetrieb auf ressourcenbeschränkten, eingebetteten Plattformen. Das schnelle Streaming-Modell verarbeitet 12,5 ms lange Audio-Chunks in durchschnittlich 8,9 ms, während das langsamere Konversationseinbettungsmodell 1-Sekunden-Chunks in 41,3 ms verarbeitet. Dies ermöglicht eine Latenz unterhalb der Wahrnehmungsschwelle, die für ein natürliches Gesprächserlebnis unerlässlich ist. Die Spitzen-Speichernutzung betrug 591,47 MB für das langsame Modell und 86,33 MB für das schnelle Modell während der Streaming-Inferenz.

    Implikationen und Ausblick

    Die vorgestellten proaktiven Hörassistenten markieren einen bedeutenden Schritt in Richtung intelligenter Hörhilfen, die über die reine Quellentrennung hinausgehen und in der Lage sind, die Absicht des Benutzers zu interpretieren und sich an die Gesprächsdynamik anzupassen. Diese Technologie könnte insbesondere älteren Menschen oder Benutzern mit eingeschränkter Fingerfertigkeit zugutekommen, für die manuelle Steuerungsschnittstellen unpraktisch sind.

    Einschränkungen und ethische Aspekte

    Das System ist primär für Szenarien konzipiert, in denen der Träger aktiv an einem Gespräch teilnimmt. Passives Zuhören, etwa beim Belauschen, ist kein primäres Ziel. Die aktuelle Implementierung priorisiert Echtzeit- und On-Device-Leistung sowie die Einbeziehung von Sprecherwechseln. Dies kann die Fähigkeit des Systems einschränken, überlappende Sprecher zu unterscheiden, insbesondere wenn mehrere Sprecher gleichzeitig zu sprechen beginnen. Zukünftige Arbeiten könnten leichtgewichtige, inhaltsbewusste Modelle integrieren, um diese Einschränkung zu mindern.

    Trotz der Generalisierung auf reale egozentrische Aufnahmen ohne explizite Feinabstimmung könnte die Leistung durch eine überwachte Anpassung an reale akustische und Gesprächsbedingungen weiter verbessert werden. Kulturelle und sprachliche Unterschiede im Sprecherwechselverhalten könnten ebenfalls eine weitere Feinabstimmung für sprach- oder kulturspezifische Dynamiken erfordern.

    Ethische Überlegungen sind von grosser Bedeutung. Eine fehlerhafte Sprechererkennung könnte relevante Stimmen unterdrücken oder irrelevante verstärken, was in kritischen Gesprächskontexten problematisch wäre. Eine transparente Gestaltung, benutzerzentrierte Bedienelemente (z. B. eine physische Taste zum Deaktivieren des Assistenten) und eine robuste Bewertung in der realen Welt sind entscheidend für einen sicheren und verantwortungsvollen Einsatz dieser Technologien.

    Diese Forschung demonstriert das Potenzial von KI-gestützten Hörassistenten, die menschliche Kommunikation in komplexen akustischen Umgebungen erheblich verbessern können, indem sie sich nahtlos und proaktiv an die Gesprächsdynamik anpassen.

    Bibliography

    - Hu, G., Itani, M., Chen, T., & Gollakota, S. (2025). Proactive Hearing Assistants that Isolate Egocentric Conversations. arXiv preprint arXiv:2511.11473. - Hu, G., Itani, M., Chen, T., & Gollakota, S. (2025). Proactive Hearing Assistants that Isolate Egocentric Conversations. Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing. - Chen, T., Wang, Q., Wu, B., Itani, M., Eskimez, S. E., Yoshioka, T., & Gollakota, S. (2024). Target conversation extraction: Source separation using turn-taking dynamics. arXiv preprint arXiv:2407.11277. - Veluri, B., Itani, M., Chen, T., Yoshioka, T., & Gollakota, S. (2024). Look Once to Hear: Target Speech Hearing with Noisy Examples. Proceedings of the CHI Conference on Human Factors in Computing Systems. - Yan, J., Ren, R., Liu, J., Xu, S., Wang, L., Wang, Y., Wang, Y., Zhang, L., Chen, X., Sun, C., Luo, J., Zhang, D., Sun, H., Zhang, C., & Li, X. (2025). TeleEgo: Benchmarking Egocentric AI Assistants in the Wild. arXiv preprint arXiv:2510.23981. - He, L., Guo, Y., Yan, Z., & Xing, G. (2025). SYSTEMNAME: Multi-Earphone Synergy for Enhanced Conversational Clarity. arXiv preprint arXiv:2505.21004.

    Artikel jetzt als Podcast anhören

    Kunden die uns vertrauen:
    Arise Health logoArise Health logoThe Paak logoThe Paak logoOE logo2020INC logoEphicient logo
    und viele weitere mehr!

    Bereit für den nächsten Schritt?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen