Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die rapide Entwicklung von Sprachmodellen (Speech Large Language Models, SLLMs) hat eine Vielzahl neuer Anwendungsmöglichkeiten eröffnet. Diese Modelle sind in der Lage, komplexe Aufgaben zu bewältigen, die sowohl Sprach- als auch Textverarbeitung umfassen. Ein zentraler Aspekt ihrer Leistungsfähigkeit ist die Fähigkeit, Anweisungen zu befolgen (Instruction-Following, IF). Traditionell werden SLLMs jedoch häufig mit Textprompts evaluiert, was nicht immer die realen Interaktionsszenarien widerspiegelt, in denen Nutzer per Sprache mit den Systemen interagieren.
Um diese Lücke zu schließen und eine realistischere Bewertung von SLLMs zu ermöglichen, wurde das DoWhatISay (DOWIS)-Datenset entwickelt. DOWIS ist das erste multilinguale Prompt-Datenset, das parallel gesprochene und geschriebene Anweisungen von Muttersprachlern enthält. Es deckt neun Aufgabenbereiche und elf Sprachen ab (Deutsch, Englisch, Italienisch, Tschechisch, Spanisch, Französisch, Ungarisch, Niederländisch, Portugiesisch, Russisch, Schwedisch) und bietet pro Aufgaben-Sprach-Paar zehn Prompt-Varianten in fünf verschiedenen Stilen:
Das Besondere an DOWIS ist, dass die Anweisungen von den Aufgabeneingaben entkoppelt sind. Dies ermöglicht die Kombination mit bestehenden Benchmarks und senkt somit die Hürde für eine sprachbasierte IF-Evaluierung, ohne die Natürlichkeit oder sprachliche Vielfalt zu beeinträchtigen.
Die Forscher evaluierten zwei aktuelle SLLMs, Phi-4 Multimodal und Qwen2.5-Omni, mithilfe des DOWIS-Datensets. Die Analyse konzentrierte sich auf den Einfluss von Prompt-Modalität (Text vs. Sprache) und Prompt-Typ auf die Modellleistung. Die Ergebnisse zeigen deutliche Muster:
Für Aufgaben, die eine Textausgabe erfordern (z.B. Automatische Spracherkennung (ASR), Maschinelle Übersetzung (MT), Sprachtranslation (ST), Sprachzusammenfassung (SSUM) und Textzusammenfassung (TSUM)), liefern Textprompts konsistent bessere Ergebnisse als gesprochene Prompts. Bei einigen Modellen, wie Phi, führten gesprochene Anweisungen sogar zu erheblichen Leistungseinbußen, was darauf hindeutet, dass die Modelle Schwierigkeiten haben, gesprochene Anweisungen für diese Aufgaben zu verarbeiten. Diese Diskrepanz ist besonders ausgeprägt in ressourcenarmen und sprachübergreifenden Szenarien.
Interessanterweise schrumpft dieser Leistungsunterschied bei Aufgaben, die eine Sprachausgabe produzieren (z.B. Text-to-Speech (TTS) und Speech-to-Speech Translation (S2ST)). Hier zeigten gesprochene Prompts eine vergleichbare oder sogar bessere Leistung als Textprompts. Dies unterstreicht die Notwendigkeit einer sprachbasierten Prompting-Evaluierung speziell für solche Anwendungsfälle.
Die Untersuchung der verschiedenen Prompt-Stile ergab, dass informelle und kurze Anweisungen durchweg die größte Herausforderung für die Modelle darstellen. Formale und detaillierte Prompts hingegen führten in der Regel zu besseren Ergebnissen. Dies deutet darauf hin, dass die Modelle besser auf strukturierte und explizite Anweisungen reagieren.
Ein weiteres Ergebnis war, dass Modelle bei einigen Aufgaben leichte Präferenzen für Prompts von männlichen oder weiblichen Sprechern zeigten. Diese Präferenzen waren jedoch nicht über alle Aufgaben hinweg konsistent. Während Qwen bei TSUM und SSUM bessere Ergebnisse mit männlichen Prompts erzielte, wurden bei TTS, MT, ST und S2ST weibliche Prompts bevorzugt. Da die Verständlichkeit der Prompts durchweg hoch war, legen diese Unterschiede nahe, dass es sich möglicherweise um sprecherbedingte Verzerrungen in den Modellen handelt. Dies betont die Bedeutung der Evaluierung beider Geschlechter, um solche Verzerrungen frühzeitig zu erkennen und zu beheben.
Die Analyse der sprachlichen Interaktion von gesprochenen Prompts konzentrierte sich auf Qwen, da dieses Modell insgesamt besser abschnitt und eine breitere Sprachabdeckung aufwies. Für Sprachen wie Tschechisch, Niederländisch, Portugiesisch und Schwedisch zeigte sich eine starke Präferenz für Textanweisungen, insbesondere bei ASR, MT und ST. Dies deutet darauf hin, dass die Modelle bei diesen Sprachen zwar in der Lage sind, Aufgaben mit Textprompts zu bewältigen, jedoch Schwierigkeiten haben, auf gesprochene Anweisungen zu generalisieren.
Das DOWIS-Datenset bietet eine wertvolle Ressource für die Forschung und Entwicklung von SLLMs. Es ermöglicht eine realistischere und umfassendere Evaluierung von Sprachmodellen, indem es die Interaktion mit gesprochenen Anweisungen in den Vordergrund rückt. Die Ergebnisse der Studien zeigen, dass eine rein textbasierte Evaluierung ein zu optimistisches Bild der Modellfähigkeiten zeichnen kann. Prompt-Stil, Modalität und Sprache spielen eine entscheidende Rolle für die Leistung der Modelle beim Befolgen von Anweisungen.
Die Einführung von DOWIS wird voraussichtlich dazu beitragen, die Entwicklung von SLLMs voranzutreiben, die in der Lage sind, menschliche Sprachbefehle in einer Vielzahl von realen Szenarien effektiver zu verstehen und auszuführen. Für Unternehmen im B2B-Bereich, die auf KI-basierte Sprachlösungen setzen, sind diese Erkenntnisse von großer Relevanz, da sie die Notwendigkeit einer differenzierten Betrachtung der Modellleistung unter verschiedenen Eingabemodalitäten und Sprachkontexten aufzeigen. Ein tieferes Verständnis dieser Faktoren ist entscheidend für die Entwicklung robuster und zuverlässiger KI-Assistenten und -Tools.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen