Das Sprachmodell ChatGPT von OpenAI hat eine neue Funktion erhalten: Nutzer können nun per Live-Video mit der KI interagieren. Diese Funktion, bereits im Mai bei der Vorstellung von GPT-4o angekündigt, wurde nach mehrmaliger Verschiebung nun freigeschaltet. Sie ermöglicht ChatGPT, die Umgebung des Nutzers visuell wahrzunehmen, Objekte zu erkennen, Situationen zu interpretieren und darauf basierend Hilfestellungen zu geben.
Die neue Videofunktion eröffnet vielfältige Anwendungsmöglichkeiten. Demonstrationen zeigten, wie ChatGPT im Videomodus bei alltäglichen Aufgaben unterstützt, beispielsweise:
Beim Kochen: ChatGPT erkennt Lebensmittel im Vorratsschrank, schlägt passende Rezepte vor und gibt Anleitungen zur Zubereitung. Bei der Pflanzenpflege: Die KI identifiziert Krankheiten und Schäden an Pflanzen anhand des Kamerabildes. Bei der Kleiderwahl: ChatGPT gibt Styling-Tipps und bewertet Outfit-Kombinationen. Beim Aufräumen: ChatGPT unterstützt beispielsweise beim Sortieren von Medikamenten und erkennt dabei auch kleingedruckte Haltbarkeitsdaten. Zusätzlich zur Videoerkennung ermöglicht der neue "Advanced Voice Mode" die Kommunikation mit ChatGPT in verschiedenen, natürlich klingenden Stimmen. Derzeit stehen zehn verschiedene Stimmen zur Verfügung.
Trotz der beeindruckenden Fähigkeiten der neuen Videofunktion zeigt ChatGPT auch im Videomodus noch Schwächen. In Tests lieferte die KI manchmal falsche oder unlogische Antworten, beispielsweise bei Anleitungen zum Abbau eines Thermostatkopfes oder zum Entlüften einer Heizung. Diese sogenannten "Halluzinationen", bei denen KIs Fakten erfinden oder falsche Schlussfolgerungen ziehen, sind ein bekanntes Problem von Sprachmodellen.
Die Verfügbarkeit der neuen Videofunktion ist derzeit eingeschränkt. Sie ist zunächst nur für zahlende ChatGPT-Pro-Nutzer außerhalb Europas verfügbar. Europäische Nutzer benötigen derzeit eine VPN-Verbindung, um die Funktion zu testen. Ein offizieller Starttermin für Europa steht noch aus, wird aber voraussichtlich in den kommenden Wochen erfolgen.
Die Entwicklungen bei OpenAI finden parallel zu ähnlichen Fortschritten bei anderen Tech-Unternehmen statt. Auch Google arbeitet an KI-Funktionen, die Live-Videos analysieren und den Nutzer im Alltag unterstützen können. Die Integration von Echtzeit-Video in KI-Systeme öffnet neue Möglichkeiten für die Interaktion zwischen Mensch und Maschine und verändert die Art und Weise, wie wir KI im Alltag nutzen.
Die Einführung der Live-Video-Funktion ist ein wichtiger Schritt in der Entwicklung von ChatGPT. Die Möglichkeit, visuelle Informationen in Echtzeit zu verarbeiten, erweitert die Anwendungsbereiche der KI enorm. Ob sich die Funktion im Alltag bewährt und wie sie weiterentwickelt wird, werden zukünftige Tests zeigen. Die Live-Video-Integration unterstreicht den Trend hin zu immer interaktiveren und multimodalen KI-Systemen, die unsere Kommunikation mit Maschinen grundlegend verändern könnten. Die Entwicklung bleibt spannend und es ist zu erwarten, dass KI-gestützte Videointeraktion in Zukunft eine immer größere Rolle spielen wird.
Bibliographie: - Chip.de: ChatGPT wird interaktiver: Neue Live-Video-Funktion in Entwicklung - t3n.de: ChatGPT: OpenAI ergänzt Advanced Voice Mode um Live-Video-Funktion - Faz.net: Liveticker zu 12 Days of Open AI: ChatGPT kann jetzt sehen - Trendingtopics.eu: ChatGPT kann nun „sehen“ und versteht Echtzeit-Videos - The-Decoder.de: ChatGPTs Advanced Voice Mode unterstützt jetzt Live Video und Screensharing - Dasding.de: CHATGPT: DIESE FUNKTION SOLL DIR DAS LEBEN EINFACHER MACHEN - t3n.de: OpenAI: ChatGPT bekommt neue Funktionen für Projekte und Chats - Threads.net: ChatGPTs Live-Video-Funktion: Der nächste große Schritt in der KI-Interaktion