Künstliche Intelligenz und menschliche Gestik: Forschung für lebensechte Co-Speech-Gesten

Kategorien:
No items found.
Freigegeben:
June 14, 2024

In einer Welt, in der künstliche Intelligenz (KI) zunehmend in unseren Alltag integriert wird, steht die Forschungsgemeinschaft vor der Herausforderung, Maschinen menschenähnlicher zu gestalten. Ein Aspekt, der in diesem Zusammenhang eine zentrale Rolle spielt, ist die Generierung von Gesten, die synchron zur Sprache erfolgen, sogenannte Co-Speech-Gesten. Diese sind ein wesentliches Element menschlicher Kommunikation und tragen dazu bei, die Bedeutung des Gesagten zu unterstreichen und Emotionen zu vermitteln.

Aktuelle Fortschritte in diesem Bereich wurden kürzlich auf der Plattform Twitter von Gradio geteilt, einem Unternehmen, das sich auf die Bereitstellung einfacher Web-Schnittstellen für Machine Learning Modelle spezialisiert hat. Gradio lud die Forschungsgemeinschaft dazu ein, einen tiefen Einblick in den Code und die Demos zu erhalten, die nun der Öffentlichkeit zugänglich gemacht wurden. Dies eröffnet neue Möglichkeiten für die Generierung von Co-Speech-Gesten und somit für die Weiterentwicklung interaktiver KI-Systeme.

Gradio selbst ermöglicht es Forschern und Entwicklern, Machine Learning Modelle durch eine benutzerfreundliche Web-Oberfläche zu demonstrieren. Mit nur wenigen Zeilen Python-Code kann eine Gradio-Schnittstelle erstellt werden, die es ermöglicht, Modelle in Python-Notebooks einzubinden oder als Webseiten zu präsentieren. Die generierten öffentlichen Links erlauben es Kollegen, mit dem Modell auf einem anderen Gerät und aus der Ferne zu interagieren.

Doch zurück zu den Co-Speech-Gesten. Die von Gradio vorgestellte Entwicklung basiert auf der Arbeit des Max-Planck-Instituts für Informatik und weiteren wissenschaftlichen Partnern, die einen Ansatz namens ConvoFusion entwickelt haben. ConvoFusion ist ein diffusionsbasierter Ansatz für die multimodale Synthese von Gesten, der es ermöglicht, Gesten auf der Grundlage multimodaler Spracheingaben zu generieren und gleichzeitig eine Kontrollierbarkeit in der Gestensynthese zu erleichtern.

ConvoFusion bietet zwei Leitobjektive, die es den Benutzern ermöglichen, den Einfluss verschiedener Konditionierungsmodalitäten (z.B. Audio vs. Text) zu modulieren und bestimmte Wörter während des Gestikulierens hervorzuheben. Die Methode ist vielseitig und kann sowohl für die Generierung von Monologgesten als auch für konversationelle Gesten trainiert werden. Um die Forschung zu interaktiven Gesten in Gruppen weiter voranzutreiben, wurde das DnD Group Gesture Dataset veröffentlicht, welches 6 Stunden Gestendaten von fünf interagierenden Personen enthält.

Die Forschung zeigt, dass Co-Speech-Gesten, die semantisch mit dem Gesagten abgestimmt sind, eine komplexe Modellierung der Wechselwirkungen zwischen Sprache und menschlicher Bewegung erfordern. Im Gegensatz zu Beat-Gesten, die natürlich mit dem Audiosignal synchronisiert sind, erfordern semantisch kohärente Gesten eine gezielte Steuerung, insbesondere bei der Betonung bestimmter Wörter.

Diese neuen Entwicklungen tragen dazu bei, die Interaktion zwischen Mensch und Maschine natürlicher und intuitiver zu gestalten, was letztendlich das Potenzial hat, die Akzeptanz und Effizienz von KI-gestützten Systemen in Bereichen wie Bildung, Kundenservice und Unterhaltung zu erhöhen.

Die Forschung zu Co-Speech-Gesten ist nicht nur ein technisches, sondern auch ein interdisziplinäres Unterfangen, das Erkenntnisse aus der Linguistik, Psychologie und Informatik miteinander verbindet. Es ist ein aufregendes Feld, das sich an der Schnittstelle von Mensch-Maschine-Interaktion befindet und das in den kommenden Jahren sicherlich noch viele bahnbrechende Entwicklungen erleben wird.

Quellen:
- Gradio's Twitter-Account: https://twitter.com/Gradio
- Gradio's offizielle Webseite: https://gradio.app/
- ConvoFusion Projektseite des Max-Planck-Instituts für Informatik: https://vcai.mpi-inf.mpg.de/projects/ConvoFusion/
- GitHub-Repository für den Code von ConvoFusion: https://github.com/PantoMatrix/PantoMatrix/tree/main/scripts/EMAGE_2024

Was bedeutet das?