Neue Entwicklungen im Bereich Echtzeit-Sprachmodelle: StepAudio 2.5 Realtime von StepFun

Kategorien:

No items found.

Freigegeben:

May 29, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

StepFun, ein KI-Labor aus Shanghai, hat das Echtzeit-Sprachmodell StepAudio 2.5 Realtime veröffentlicht.
Das Modell zeichnet sich durch eine End-to-End-Architektur aus, die Audio direkt verarbeitet und generiert, ohne Zwischenschritte der Textkonvertierung.
StepAudio 2.5 Realtime soll in Benchmarks diverse führende Sprach-KI-Modelle übertroffen haben, insbesondere in Bezug auf paralinguistische Verständnisfähigkeiten.
Ein zentrales Merkmal ist die "Roleplay-Specific RLHF"-Optimierung, die eine hohe Konsistenz der zugewiesenen Charaktereigenschaften des Modells sicherstellen soll.
Das Modell unterstützt Englisch und Chinesisch und ermöglicht Entwicklern die Erstellung eigener, vollständig anpassbarer KI-Personas.

Die Landschaft der Künstlichen Intelligenz wird kontinuierlich durch neue Entwicklungen geprägt. Eine aktuelle Veröffentlichung, die in der Fachwelt Beachtung findet, ist StepAudio 2.5 Realtime des chinesischen KI-Labors StepFun. Dieses neue Echtzeit-Sprachmodell verspricht signifikante Fortschritte in der Sprach-KI und positioniert sich als leistungsstarke Lösung für diverse Anwendungen im B2B-Bereich.

StepAudio 2.5 Realtime: Eine technische Betrachtung

StepAudio 2.5 Realtime wird als End-to-End-Sprachmodell präsentiert. Dies bedeutet, dass Audio direkt als Eingabe verarbeitet und als Ausgabe generiert wird, ohne den traditionellen Pipeline-Ansatz, der Spracherkennung, -verarbeitung und -synthese in separate Schritte unterteilt. Diese integrierte Architektur soll zu einer effizienteren und flüssigeren Kommunikation führen. Das Modell unterstützt sowohl die englische als auch die chinesische Sprache.

Innovationen in der Persona-Konsistenz

Ein wesentlicher Fokus von StepFun bei der Entwicklung von StepAudio 2.5 Realtime lag auf der Verbesserung der Persona-Konsistenz. Ein bekanntes Problem bei konversationellen KI-Systemen ist das sogenannte "Out-of-Character"-Verhalten (OOC), bei dem Modelle von ihrer zugewiesenen Persönlichkeit abweichen können, insbesondere unter Druck oder bei längeren Interaktionen. StepFun begegnet diesem Problem mit einer speziellen "Roleplay-Specific RLHF" (Reinforcement Learning from Human Feedback) Optimierung. Diese Methode nutzt menschliches Feedback, um die Stabilität der Persona gezielt zu trainieren, anstatt sich nur auf die allgemeine Qualität zu konzentrieren. Die Trainingsdatenbasis umfasst über 10.000 von Menschen erstellte Persona-Seeds, die algorithmisch zu einer millionenfach erweiterten Feature-Matrix ausgebaut wurden. Ziel ist es, eine so große Vielfalt an Trainingsdaten zu bieten, dass das Modell auch bei komplexen und ungewöhnlichen Gesprächssituationen seine Rolle beibehält.

Paralinguistisches Verständnis als Differenzierungsmerkmal

Eine weitere herausragende Fähigkeit von StepAudio 2.5 Realtime ist das paralinguistische Verständnis. Das Modell ist in der Lage, nonverbale akustische Hinweise wie Stimmgeschwindigkeit, emotionalen Tonfall und Alter direkt aus dem Audio zu interpretieren, bevor es eine Antwort formuliert. Dies ermöglicht eine nuanciertere Wahrnehmung und Reaktion auf die menschliche Kommunikation. In einem objektiven Benchmark, der die akustische Merkmalswahrnehmung (z.B. Emotion und Sprechgeschwindigkeit) misst, erreichte StepAudio 2.5 Realtime einen Wert von 82,18, während GPT Realtime 1.5 bei 80,46 und Gemini Live bei 58,05 lagen. Diese Fähigkeit zur Interpretation von Seufzern, Zögern oder Lachen kann die Interaktion mit KI-Systemen erheblich natürlicher gestalten.

Benchmark-Ergebnisse und Leistungsvergleich

StepFun hat StepAudio 2.5 Realtime in einer Reihe von Benchmarks gegen führende Echtzeit-Sprachmodelle getestet und dabei nach eigenen Angaben in allen fünf Bewertungsdimensionen den ersten Platz belegt. Die Tests umfassten:

Menschliche Evaluation (subjektiv): 80.41 Punkte
Allgemeine Dialogqualität (objektiv): 86.36 Punkte
Automobilszenarien (objektiv): 84.80 Punkte
Gesprochene Frage-Antwort-Sitzungen (objektiv, 11 Audioverständnisaufgaben): 79.80 Punkte
Paralinguistisches Verständnis (objektiv): 82.18 Punkte

Diese Ergebnisse deuten auf eine starke Leistung des Modells hin, insbesondere im Vergleich zu Wettbewerbern wie GPT Realtime 1.5 und Gemini Live. Es ist jedoch zu beachten, dass es sich hierbei um unternehmenseigene Benchmarks handelt.

Anwendungsbereiche und Entwicklerintegration

Die Technologie hinter StepAudio 2.5 Realtime ist darauf ausgelegt, Entwicklern die Erstellung und Anpassung von KI-Personas zu ermöglichen. Über eine API können eigene Charaktere mit konfigurierbaren Meinungen, Schlagworten und emotionalen Grenzen entwickelt werden. Dies eröffnet vielfältige Anwendungsmöglichkeiten in Bereichen wie:

Kundenservice-Bots
Virtuelle Assistenten
Interaktive Medien und Spiele
Emotionale Begleiter (wie das von StepFun eingeführte Flaggschiff "Xiao Yue")

Die Integration erfolgt über eine WebSocket-API, die eine persistente Verbindung für bidirektionales Audio-Streaming bietet. Die Latenzzeit soll unter 300 ms liegen, was für Echtzeit-Sprachanwendungen entscheidend ist.

Hintergrund von StepFun

StepFun wurde im April 2023 von Jiang Daxin gegründet, der zuvor 16 Jahre bei Microsoft an Projekten wie Bing, Cortana und Azure Cognitive Services gearbeitet hat. Das Unternehmen wird als eines der "AI Tiger Startups" Chinas bezeichnet und hat bisher rund 1,7 Milliarden US-Dollar an Finanzmitteln erhalten. StepFun ist auch für seine Text-LLMs bekannt, die in der Vergangenheit größere Systeme übertroffen haben, wie das 196-Milliarden-Parameter-Modell Step 3.5 Flash, das in Reasoning-Benchmarks gegen Billionen-Parameter-Konkurrenten erfolgreich war.

Offene Fragen und zukünftige Perspektiven

Trotz der beeindruckenden technischen Fortschritte bleiben bestimmte Fragen offen, insbesondere im Hinblick auf die Trainingsdaten. Die öffentlichen Beschreibungen von StepFun geben derzeit keine detaillierten Informationen über die Herkunft der verwendeten Sprachdaten, die Einwilligung der Sprecher oder die Copyright-Grenzen an. Für B2B-Kunden, die KI-Lösungen in regulierten Umfeldern einsetzen möchten, sind diese Aspekte von Bedeutung, um rechtliche Risiken und ethische Bedenken abzuklären.

StepFun wird in Zukunft zeigen müssen, wie sich StepAudio 2.5 Realtime in der Praxis bewährt und wie das Unternehmen mit den Fragen rund um die Transparenz und Lizenzierung der Trainingsdaten umgeht. Die Fähigkeit, performante und gleichzeitig verantwortungsvolle KI-Lösungen anzubieten, wird entscheidend für den langfristigen Erfolg in einem wettbewerbsintensiven Markt sein.

Bibliography: - Decrypt. (2026, May 26). *StepFun's Voice AI Topped Every Benchmark. It Also Hears Your Sighs*. Retrieved from https://decrypt.co/369013/stepfun-stepaudio-voice-ai-tops-benchmarks - MarkTechPost. (2026, May 24). *StepFun Releases StepAudio 2.5 Realtime: An End-to-End Voice Model with Roleplay-Specific RLHF and Paralinguistic Comprehension*. Retrieved from https://www.marktechpost.com/2026/05/24/stepfun-releases-stepaudio-2-5-realtime-an-end-to-end-voice-model-with-roleplay-specific-rlhf-and-paralinguistic-comprehension/ - WinBuzzer. (2026, May 25). *StepFun Launches StepAudio 2.5 Realtime Live Voice AI Model*. Retrieved from https://winbuzzer.com/2026/05/25/stepfun-launches-stepaudio-25-for-live-voice-ai-xcxwbn/ - AI-trends.today. (2026, May 25). *StepFun releases StepAudio 2.5 realtime, an end-to-end voice model with roleplay-specific RLHF (Roleplay Language Handling Functions) and paralinguistic comprehension*. Retrieved from https://ai-trends.today/stepfun-releases-stepaudio-2-5-realtime-an-end-to-end-voice-model-with-roleplay-specific-rlhf-and-paralinguistic-comprehension/ - TECH SPARKING. (2026, May 24). *StepFun Releases StepAudio 2.5 Real-Time: End-to-End Voice Modeling with Roleplay-Specific RLHF and Linguistic Understanding*. Retrieved from https://techsparking.com/stepfun-releases-stepaudio-2-5-real-time-end-to-end-voice-modeling-with-roleplay-specific-rlhf-and-linguistic-understanding/ - StepFun Documentation. *All Audio Models*. Retrieved from https://platform.stepfun.ai/docs/en/guides/models/audio - Yahoo Tech. (2026, May 26). *StepFun's Voice AI Topped Every Benchmark. It Also Hears Your Sighs*. Retrieved from https://tech.yahoo.com/ai/meta-ai/articles/stepfuns-voice-ai-topped-every-152944264.html - GitHub. *stepfun-ai/Step3*. Retrieved from https://github.com/stepfun-ai/Step3 - StepFun Documentation. *Voice interaction developer guide*. Retrieved from https://platform.stepfun.ai/docs/en/guides/developer/tts - GitHub. *stepfun-ai/Step3-VL-10B*. Retrieved from https://github.com/stepfun-ai/Step3-VL-10B