OpenAI präsentiert neue Audio-Modelle zur Verbesserung der Sprachinteraktion in Echtzeit

Kategorien:

No items found.

Freigegeben:

May 9, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

OpenAI hat drei neue Audio-Modelle vorgestellt: GPT-Realtime-2, GPT-Realtime-Translate und GPT-Realtime-Whisper.
Diese Modelle sind über die Realtime API verfügbar und zielen darauf ab, Sprachinteraktionen mit KI-Systemen in Echtzeit natürlicher und effizienter zu gestalten.
GPT-Realtime-2 ist das erste Sprachmodell mit GPT-5-ähnlichen Reasoning-Fähigkeiten und wurde für flüssige Echtzeit-Gespräche optimiert, inklusive Kontextmanagement und Werkzeugaufrufen.
GPT-Realtime-Translate ermöglicht Live-Übersetzungen von Sprache in über 70 Eingabesprachen und 13 Ausgabesprachen.
GPT-Realtime-Whisper bietet eine Echtzeit-Transkription von gesprochener Sprache mit geringer Latenz.
Die Modelle zeigen Verbesserungen bei der Verarbeitung von Akzenten, Hintergrundgeräuschen und schnellem Sprechen und unterstützen EU Data Residency.

Die Interaktion zwischen Mensch und Maschine entwickelt sich stetig weiter, wobei die Sprachschnittstelle eine zunehmend zentrale Rolle einnimmt. In diesem Kontext hat OpenAI kürzlich drei neue Audio-Modelle vorgestellt, die darauf abzielen, die Qualität und Natürlichkeit von KI-gestützten Sprachinteraktionen signifikant zu verbessern. Diese Modelle – GPT-Realtime-2, GPT-Realtime-Translate und GPT-Realtime-Whisper – sind über die Realtime API zugänglich und sollen Entwicklern neue Möglichkeiten für die Gestaltung von Sprachassistenten und -anwendungen eröffnen.

Die neuen Audio-Modelle im Detail

Die drei vorgestellten Modelle adressieren unterschiedliche Aspekte der Sprachverarbeitung in Echtzeit und bauen auf den bestehenden Fortschritten von OpenAI im Bereich der generativen KI auf.

GPT-Realtime-2: Intelligente Konversation in Echtzeit

GPT-Realtime-2 wird als das erste Sprachmodell mit GPT-5-ähnlichen Reasoning-Fähigkeiten in Echtzeit beschrieben. Es wurde speziell für Live-Sprachinteraktionen entwickelt, bei denen das Modell in der Lage sein soll, Gespräche flüssig fortzuführen, während es komplexe Anfragen verarbeitet, Werkzeuge aufruft und auf Korrekturen oder Unterbrechungen reagiert. Das Modell soll ein hohes Maß an Kontextverständnis aufweisen und in der Lage sein, spezialisierte Terminologie und Eigennamen zu berücksichtigen. Ein erweitertes Kontextfenster von 128.000 Token, gegenüber 32.000 beim Vorgängermodell GPT-Realtime-1.5, soll längere und kohärentere Gesprächssitzungen ermöglichen.

Ein wesentlicher Fokus liegt auf der Verbesserung der menschlicheren Interaktion. Das Modell soll nun in der Lage sein, auf Unterbrechungen zu reagieren und Rückmeldungen natürlicher zu gestalten, beispielsweise durch das Warten, bis genügend Informationen für eine sinnvolle Antwort vorliegen. Auch die Kommunikation von Problemen soll verbessert werden, um ein stillschweigendes Scheitern von Interaktionen zu vermeiden.

Entwickler haben die Möglichkeit, den Reasoning-Aufwand des Modells anzupassen, von minimal bis sehr hoch, wobei „niedrig“ die Standardeinstellung ist. Dies ermöglicht eine Balance zwischen geringer Latenz für einfache Interaktionen und tieferem Reasoning für komplexe Anfragen. Zudem können mehrere Werkzeuge parallel aufgerufen werden, was die Effizienz in dynamischen Gesprächssituationen steigern soll. Tests haben gezeigt, dass GPT-Realtime-2 (hohe Einstellung) eine Verbesserung von 15,2 % auf Big Bench Audio für Audio-Intelligenz gegenüber GPT-Realtime-1.5 erzielt, und GPT-Realtime-2 (sehr hohe Einstellung) eine Verbesserung von 13,8 % auf Audio MultiChallenge für die Befolgung von Anweisungen.

GPT-Realtime-Translate: Sprachbarrieren in Echtzeit überwinden

Das Modell GPT-Realtime-Translate ist darauf ausgelegt, live gesprochene Sprache in Echtzeit zu übersetzen. Es unterstützt über 70 Eingabesprachen und kann in 13 Ausgabesprachen übersetzen. Das Ziel ist es, mehrsprachige Sprachinteraktionen zu ermöglichen, bei denen jede Person in ihrer bevorzugten Sprache sprechen und die Unterhaltung in Echtzeit übersetzt erhalten kann. Dies ist relevant für Anwendungsbereiche wie den Kundensupport, den internationalen Handel, Bildungseinrichtungen oder Medienplattformen. Die Deutsche Telekom soll das Modell bereits für den mehrsprachigen Kundensupport evaluieren.

Die Herausforderung bei der Live-Übersetzung liegt darin, die Bedeutung zu bewahren, während das Tempo des Sprechers beibehalten wird, selbst bei natürlichen Sprechweisen, Kontextwechseln oder regionalen Akzenten. Das Modell soll hier eine geringe Latenz und eine hohe Sprachflüssigkeit bieten, um grenzüberschreitende Gespräche natürlicher zu gestalten.

GPT-Realtime-Whisper: Schnelle und präzise Transkription

GPT-Realtime-Whisper ist ein neues Streaming-Transkriptionsmodell, das für die Echtzeit-Umwandlung von Sprache in Text mit sehr niedriger Latenz konzipiert wurde. Es transkribiert Audio, während gesprochen wird, was schnellere und reaktionsschnellere Anwendungen ermöglicht. Potenzielle Einsatzgebiete sind die automatische Untertitelung von Meetings oder Live-Streams, die Erstellung von Notizen und Zusammenfassungen während laufender Gespräche, der Kundensupport, medizinische Anwendungen oder der Handel.

Die Fähigkeit zur sofortigen Transkription soll Geschäftsprozesse beschleunigen, indem gesprochene Inhalte unmittelbar in Textform verfügbar gemacht werden. Dies kann beispielsweise im Kundensupport die Nachbearbeitung erleichtern oder in Meetings die Erstellung von Protokollen unterstützen.

Technische Aspekte und Verfügbarkeit

Alle drei Modelle sind über die Realtime API verfügbar. Die Kosten für die Nutzung variieren je nach Modell: GPT-Realtime-2 wird nach Audio-Token abgerechnet (32 USD pro Million Eingabe-Token, 64 USD pro Million Ausgabe-Token), GPT-Realtime-Translate kostet 0,034 USD pro Minute und GPT-Realtime-Whisper 0,017 USD pro Minute. Die Preise für GPT-Realtime-2 bleiben damit gegenüber dem Vorgängermodell unverändert.

Für europäische Entwickler ist die Unterstützung der EU Data Residency durch die Realtime API von Bedeutung. Dies bedeutet, dass Anfragen und Antworten innerhalb der EU verarbeitet werden können, um den europäischen Datenschutzanforderungen gerecht zu werden. Ein Vorbehalt besteht jedoch hinsichtlich des Tracings von API-Aufrufen zu Debugging-Zwecken, das derzeit noch nicht vollständig EU-Data-Residency-konform sein soll.

Die Realtime API beinhaltet zudem mehrere Sicherheitsebenen und Schutzmaßnahmen, um Missbrauch zu verhindern. Aktive Klassifikatoren überwachen API-Sitzungen, und Entwickler können zusätzliche Sicherheitsvorkehrungen über das Agents SDK implementieren. Die Nutzungsrichtlinien untersagen die Verwendung der Outputs für Spam, Täuschung oder andere schädliche Zwecke, und es wird von Entwicklern erwartet, klar zu kommunizieren, wenn Nutzer mit einer KI interagieren.

Ausblick und Implikationen

Die Einführung dieser neuen Audio-Modelle unterstreicht OpenAIs Bestreben, Sprachinteraktionen mit KI-Systemen weiter zu naturalisieren und zu optimieren. Die Fähigkeiten zur Echtzeit-Reasoning, -Übersetzung und -Transkription könnten eine neue Generation von Sprachassistenten und -anwendungen ermöglichen, die intuitiver und effizienter sind. Dies betrifft eine Vielzahl von Sektoren, von Kundenservice und Bildung bis hin zu Gesundheitswesen und Medien. Die kontinuierliche Verbesserung der Modelle in Bezug auf Kontextverständnis, Genauigkeit bei der Befolgung von Anweisungen und die Fähigkeit, Werkzeuge geschickt einzusetzen, deutet auf eine Entwicklung hin zu immer autonomeren und leistungsfähigeren KI-Agenten.

Die Integration von Audio als integraler Bestandteil der KI-Interaktion, anstatt als isoliertes Feature, könnte die Art und Weise verändern, wie Menschen mit Software und digitalen Diensten umgehen, indem sie sprachgesteuerte Workflows und natürliche Konversationen in den Vordergrund rückt.

Bibliography

- OpenAI. (2026, May 7). Advancing voice intelligence with new models in the API. - Kirchner, M. (2026, May 8). OpenAI: Neue Audio-Modelle für Echtzeit-KI-Support. heise online. - OpenAI. (2025, March 20). Introducing next-generation audio models in the API. - OpenAI. (2025, August 28). Neu: Updates an gpt-realtime und der Echtzeit-API für Sprachagenten in der Produktion. - Latenode. (2025, March 21). Ich habe die neuen Audiomodelle von OpenAI erkundet – hier ist, was sich tatsächlich anders anfühlt. - Schreiner, M. (2024, October 1). OpenAIs neue Realtime API: KI-Assistenten sprechen jetzt in Echtzeit. The Decoder. - Bastian, M. (2026, February 24). OpenAI veröffentlicht Updates für Audio-API und beschleunigt komplexe KI-Agenten. The Decoder. - Schmidt, C. (2026, May 8). OpenAI stellt drei neue Echtzeit-Audio-Modelle für Entwickler vor. FOUNDIC.org. - OpenAI. Realtime and audio | OpenAI API. - Obert, M. (2026, February 10). OpenAI Realtime API: What has happened in the year since the beta. heise online.