Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die menschliche Fähigkeit, in komplexen akustischen Umgebungen relevante Stimmen zu isolieren – bekannt als das „Cocktailparty-Problem“ – ist bemerkenswert, stösst jedoch in überfüllten Räumen an ihre Grenzen. Für Menschen mit Hörbeeinträchtigungen kann die Unterscheidung überlappender Gespräche zu kognitiver Überlastung und Hörermüdung führen. Bestehende Hörhilfen erfordern oft manuelle Eingriffe, um spezifische Schallquellen auszuwählen, was in Mehrparteiengesprächen oder bei räumlich verteilten Sprechern unpraktisch sein kann.
Eine aktuelle Forschungsarbeit stellt hierzu eine innovative Lösung vor: proaktive Hörassistenten, die automatisch Gesprächspartner identifizieren und isolieren, ohne explizite Aufforderungen des Nutzers. Dieses System, das auf egozentrischen binauralen Audiodaten basiert, nutzt die eigene Sprache des Trägers als Anker. Durch die Analyse des Gesprächsverhaltens und der Dialogdynamik ist es in der Lage, Gesprächspartner zu erkennen und störende Stimmen zu unterdrücken.
Das Kernstück des Systems bildet eine Dual-Modell-Architektur, die für den Echtzeitbetrieb auf tragbaren Geräten konzipiert ist. Diese Architektur besteht aus zwei Hauptkomponenten:
Diese Kombination gewährleistet sowohl eine sofortige Reaktion als auch ein tiefgreifendes Verständnis des Gesprächsverlaufs. Das System verarbeitet binaurale Audiosignale, die vom Träger erfasst werden. Die eigene Sprache des Trägers wird mittels eines Beamformers isoliert und dient als Referenzpunkt. Basierend auf Merkmalen wie wechselseitigem Sprechen, geringer Überlappung und zeitlicher Koordination identifiziert der Assistent die relevanten Gesprächspartner.
Die Entwicklung solcher proaktiver Hörassistenten birgt mehrere Herausforderungen:
Die vorgestellte Methode adressiert diese Herausforderungen durch einen Ansatz, der auf Erkenntnissen aus der natürlichen Sprachverarbeitung (NLP) basiert, insbesondere aus der Vorhersage von Sprecherwechseln, der Sprecherdiarisierung und der Dialogmodellierung.
Um die Generalisierungsfähigkeit des Modells zu gewährleisten, wurde eine mehrstufige Trainingsstrategie angewendet. Da qualitativ hochwertige egozentrische Datensätze mit mehreren Sprechern und komplexen Dynamiken rar sind, wurden nicht-egozentrische Datensätze verwendet und räumlich so aufbereitet, dass sie egozentrische Bedingungen simulieren. Zu den verwendeten Datensätzen gehören:
Zusätzlich wurden fünf synthetische Datensätze erstellt, um spezifische Szenarien wie Gespräche mit zwei, drei, vier oder fünf Sprechern sowie Situationen, in denen Sprecher das Gespräch verlassen, zu simulieren. Das Training erfolgte in drei Phasen:
Die Evaluierung des Systems erfolgte anhand von vier Schlüsselmetriken:
Die Ergebnisse auf realen 2- und 3-Sprecher-Konversationen, die mit binauraler egozentrischer Hardware von 11 Teilnehmern (insgesamt 6,8 Stunden) gesammelt wurden, zeigten eine signifikante Generalisierungsfähigkeit bei der Identifizierung und Isolierung von Gesprächspartnern in Umgebungen mit mehreren Gesprächen. Die Genauigkeitsraten lagen zwischen 80 % und 92 %, während die Fehlerraten bei 1,5 % bis 2,2 % lagen. Die Sprachqualität der Gesprächspartner verbesserte sich um 7,22 dB bis 11,95 dB (SISDRi).
Eine Benutzerstudie mit 11 Teilnehmern im Alter von 21 bis 65 Jahren bestätigte die objektiven Messungen. Die Teilnehmer bewerteten die Geräuschunterdrückung, das Gesprächsverständnis und den Höranstrengungsgrad auf einer 5-Punkte-Skala. Das vorgeschlagene System verbesserte die vom Benutzer wahrgenommene Qualität in allen vier Aspekten erheblich, wobei der mittlere Meinungs-Score (MOS) von 1,88 auf 4,30 anstieg.
Umfassende Ablationsstudien untersuchten den Einfluss verschiedener Systemkomponenten:
Ein entscheidendes Merkmal des Systems ist seine Fähigkeit zum Echtzeitbetrieb auf ressourcenbeschränkten, eingebetteten Plattformen. Das schnelle Streaming-Modell verarbeitet 12,5 ms lange Audio-Chunks in durchschnittlich 8,9 ms, während das langsamere Konversationseinbettungsmodell 1-Sekunden-Chunks in 41,3 ms verarbeitet. Dies ermöglicht eine Latenz unterhalb der Wahrnehmungsschwelle, die für ein natürliches Gesprächserlebnis unerlässlich ist. Die Spitzen-Speichernutzung betrug 591,47 MB für das langsame Modell und 86,33 MB für das schnelle Modell während der Streaming-Inferenz.
Die vorgestellten proaktiven Hörassistenten markieren einen bedeutenden Schritt in Richtung intelligenter Hörhilfen, die über die reine Quellentrennung hinausgehen und in der Lage sind, die Absicht des Benutzers zu interpretieren und sich an die Gesprächsdynamik anzupassen. Diese Technologie könnte insbesondere älteren Menschen oder Benutzern mit eingeschränkter Fingerfertigkeit zugutekommen, für die manuelle Steuerungsschnittstellen unpraktisch sind.
Das System ist primär für Szenarien konzipiert, in denen der Träger aktiv an einem Gespräch teilnimmt. Passives Zuhören, etwa beim Belauschen, ist kein primäres Ziel. Die aktuelle Implementierung priorisiert Echtzeit- und On-Device-Leistung sowie die Einbeziehung von Sprecherwechseln. Dies kann die Fähigkeit des Systems einschränken, überlappende Sprecher zu unterscheiden, insbesondere wenn mehrere Sprecher gleichzeitig zu sprechen beginnen. Zukünftige Arbeiten könnten leichtgewichtige, inhaltsbewusste Modelle integrieren, um diese Einschränkung zu mindern.
Trotz der Generalisierung auf reale egozentrische Aufnahmen ohne explizite Feinabstimmung könnte die Leistung durch eine überwachte Anpassung an reale akustische und Gesprächsbedingungen weiter verbessert werden. Kulturelle und sprachliche Unterschiede im Sprecherwechselverhalten könnten ebenfalls eine weitere Feinabstimmung für sprach- oder kulturspezifische Dynamiken erfordern.
Ethische Überlegungen sind von grosser Bedeutung. Eine fehlerhafte Sprechererkennung könnte relevante Stimmen unterdrücken oder irrelevante verstärken, was in kritischen Gesprächskontexten problematisch wäre. Eine transparente Gestaltung, benutzerzentrierte Bedienelemente (z. B. eine physische Taste zum Deaktivieren des Assistenten) und eine robuste Bewertung in der realen Welt sind entscheidend für einen sicheren und verantwortungsvollen Einsatz dieser Technologien.
Diese Forschung demonstriert das Potenzial von KI-gestützten Hörassistenten, die menschliche Kommunikation in komplexen akustischen Umgebungen erheblich verbessern können, indem sie sich nahtlos und proaktiv an die Gesprächsdynamik anpassen.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen