Evaluierung von Sprachmodellen mit dem DOWIS-Datenset: Ein neuer Ansatz für sprachbasierte Interaktionen

Kategorien:

No items found.

Freigegeben:

March 11, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Der schnelle Überblick:

Das DOWIS-Datenset ist eine multilinguale Sammlung von gesprochenen und geschriebenen Prompts zur Bewertung von Sprach-LLMs.
Es umfasst 9 Aufgaben und 11 Sprachen mit je 10 Prompt-Varianten in fünf Stilen.
Textprompts übertreffen gesprochene Prompts bei Aufgaben mit Textausgabe, insbesondere in ressourcenarmen und sprachübergreifenden Kontexten.
Bei Aufgaben mit Sprachausgabe sind gesprochene Prompts gleichwertig oder besser.
Informelle und kurze Prompts stellen die größte Herausforderung dar.
Geschlechtsunterschiede bei Sprachprompts deuten auf potenzielle Verzerrungen in den Modellen hin.

Realistische Evaluierung von Sprachmodellen: Das DOWIS-Datenset und seine Implikationen

Die rapide Entwicklung von Sprachmodellen (Speech Large Language Models, SLLMs) hat eine Vielzahl neuer Anwendungsmöglichkeiten eröffnet. Diese Modelle sind in der Lage, komplexe Aufgaben zu bewältigen, die sowohl Sprach- als auch Textverarbeitung umfassen. Ein zentraler Aspekt ihrer Leistungsfähigkeit ist die Fähigkeit, Anweisungen zu befolgen (Instruction-Following, IF). Traditionell werden SLLMs jedoch häufig mit Textprompts evaluiert, was nicht immer die realen Interaktionsszenarien widerspiegelt, in denen Nutzer per Sprache mit den Systemen interagieren.

DOWIS: Ein multilingues Datenset für gesprochene Prompts

Um diese Lücke zu schließen und eine realistischere Bewertung von SLLMs zu ermöglichen, wurde das DoWhatISay (DOWIS)-Datenset entwickelt. DOWIS ist das erste multilinguale Prompt-Datenset, das parallel gesprochene und geschriebene Anweisungen von Muttersprachlern enthält. Es deckt neun Aufgabenbereiche und elf Sprachen ab (Deutsch, Englisch, Italienisch, Tschechisch, Spanisch, Französisch, Ungarisch, Niederländisch, Portugiesisch, Russisch, Schwedisch) und bietet pro Aufgaben-Sprach-Paar zehn Prompt-Varianten in fünf verschiedenen Stilen:

Basic: Natürliche, alltägliche Formulierung.
Detailed: Ausführliche und präzise Anweisungen.
Short: So prägnant wie möglich, aber unmissverständlich.
Formal: Professionelle, geschliffene Sprache.
Informal: Umgangssprachliche und ungezwungene Ausdrucksweise.

Das Besondere an DOWIS ist, dass die Anweisungen von den Aufgabeneingaben entkoppelt sind. Dies ermöglicht die Kombination mit bestehenden Benchmarks und senkt somit die Hürde für eine sprachbasierte IF-Evaluierung, ohne die Natürlichkeit oder sprachliche Vielfalt zu beeinträchtigen.

Evaluierung und zentrale Erkenntnisse

Die Forscher evaluierten zwei aktuelle SLLMs, Phi-4 Multimodal und Qwen2.5-Omni, mithilfe des DOWIS-Datensets. Die Analyse konzentrierte sich auf den Einfluss von Prompt-Modalität (Text vs. Sprache) und Prompt-Typ auf die Modellleistung. Die Ergebnisse zeigen deutliche Muster:

Textprompts übertreffen gesprochene Prompts bei Textausgabe

Für Aufgaben, die eine Textausgabe erfordern (z.B. Automatische Spracherkennung (ASR), Maschinelle Übersetzung (MT), Sprachtranslation (ST), Sprachzusammenfassung (SSUM) und Textzusammenfassung (TSUM)), liefern Textprompts konsistent bessere Ergebnisse als gesprochene Prompts. Bei einigen Modellen, wie Phi, führten gesprochene Anweisungen sogar zu erheblichen Leistungseinbußen, was darauf hindeutet, dass die Modelle Schwierigkeiten haben, gesprochene Anweisungen für diese Aufgaben zu verarbeiten. Diese Diskrepanz ist besonders ausgeprägt in ressourcenarmen und sprachübergreifenden Szenarien.

Sprachprompts sind bei Sprachausgabe konkurrenzfähig

Interessanterweise schrumpft dieser Leistungsunterschied bei Aufgaben, die eine Sprachausgabe produzieren (z.B. Text-to-Speech (TTS) und Speech-to-Speech Translation (S2ST)). Hier zeigten gesprochene Prompts eine vergleichbare oder sogar bessere Leistung als Textprompts. Dies unterstreicht die Notwendigkeit einer sprachbasierten Prompting-Evaluierung speziell für solche Anwendungsfälle.

Einfluss des Prompt-Stils

Die Untersuchung der verschiedenen Prompt-Stile ergab, dass informelle und kurze Anweisungen durchweg die größte Herausforderung für die Modelle darstellen. Formale und detaillierte Prompts hingegen führten in der Regel zu besseren Ergebnissen. Dies deutet darauf hin, dass die Modelle besser auf strukturierte und explizite Anweisungen reagieren.

Geschlechtsunterschiede bei Sprachprompts

Ein weiteres Ergebnis war, dass Modelle bei einigen Aufgaben leichte Präferenzen für Prompts von männlichen oder weiblichen Sprechern zeigten. Diese Präferenzen waren jedoch nicht über alle Aufgaben hinweg konsistent. Während Qwen bei TSUM und SSUM bessere Ergebnisse mit männlichen Prompts erzielte, wurden bei TTS, MT, ST und S2ST weibliche Prompts bevorzugt. Da die Verständlichkeit der Prompts durchweg hoch war, legen diese Unterschiede nahe, dass es sich möglicherweise um sprecherbedingte Verzerrungen in den Modellen handelt. Dies betont die Bedeutung der Evaluierung beider Geschlechter, um solche Verzerrungen frühzeitig zu erkennen und zu beheben.

Sprachliche Interaktionen mit gesprochenen Prompts

Die Analyse der sprachlichen Interaktion von gesprochenen Prompts konzentrierte sich auf Qwen, da dieses Modell insgesamt besser abschnitt und eine breitere Sprachabdeckung aufwies. Für Sprachen wie Tschechisch, Niederländisch, Portugiesisch und Schwedisch zeigte sich eine starke Präferenz für Textanweisungen, insbesondere bei ASR, MT und ST. Dies deutet darauf hin, dass die Modelle bei diesen Sprachen zwar in der Lage sind, Aufgaben mit Textprompts zu bewältigen, jedoch Schwierigkeiten haben, auf gesprochene Anweisungen zu generalisieren.

Fazit und Ausblick

Das DOWIS-Datenset bietet eine wertvolle Ressource für die Forschung und Entwicklung von SLLMs. Es ermöglicht eine realistischere und umfassendere Evaluierung von Sprachmodellen, indem es die Interaktion mit gesprochenen Anweisungen in den Vordergrund rückt. Die Ergebnisse der Studien zeigen, dass eine rein textbasierte Evaluierung ein zu optimistisches Bild der Modellfähigkeiten zeichnen kann. Prompt-Stil, Modalität und Sprache spielen eine entscheidende Rolle für die Leistung der Modelle beim Befolgen von Anweisungen.

Die Einführung von DOWIS wird voraussichtlich dazu beitragen, die Entwicklung von SLLMs voranzutreiben, die in der Lage sind, menschliche Sprachbefehle in einer Vielzahl von realen Szenarien effektiver zu verstehen und auszuführen. Für Unternehmen im B2B-Bereich, die auf KI-basierte Sprachlösungen setzen, sind diese Erkenntnisse von großer Relevanz, da sie die Notwendigkeit einer differenzierten Betrachtung der Modellleistung unter verschiedenen Eingabemodalitäten und Sprachkontexten aufzeigen. Ein tieferes Verständnis dieser Faktoren ist entscheidend für die Entwicklung robuster und zuverlässiger KI-Assistenten und -Tools.

Bibliographie

- Züfle, M., Papi, S., Retkowski, F., Mazurek, S., Kasztelnik, M., Waibel, A., Bentivogli, L., Niehues, J. (2026). Do What I Say: A Spoken Prompt Dataset for Instruction-Following. arXiv preprint arXiv:2603.09881. - Hugging Face Datasets: maikezu/dowis. - Wang, D., Xu, J., Chu, R., Guo, Z., Wang, X., Wu, J., Yang, D., Ji, S., Lin, J. (2025). InSerter: Speech Instruction Following with Unsupervised Interleaved Pre-training. Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 18024–18046. - Lai, C.-I J., Lu, Z., Cao, L., Pang, R. (2023). Instruction-Following Speech Recognition. arXiv preprint arXiv:2309.09843. - Si, S., Ma, W., Gao, H., Wu, Y., Lin, T.-E., Dai, Y., Li, H., Yan, R., Huang, F., Li, Y. (2023). SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented Dialogue Agents. NeurIPS 2023. - Lu, K.-H., Chen, Z., Fu, S.-W., Yang, C.-H. H., Balam, J., Ginsburg, B., Wang, Y.-C. F., Lee, H.-Y. (2024). Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data. arXiv preprint arXiv:2409.20007. - Guardieiro, V., Stein, A., Khare, A., Wong, E. (2025). Instruction Following by Boosting Attention of Large Language Models. arXiv preprint arXiv:2506.13734. - Sahota, H. (n.d.). harpreetsahota/Instruction-Following-Evaluation-for-Large-Language-Models. Hugging Face Datasets.