Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Im Bereich der Künstlichen Intelligenz (KI) stellt die natürliche und reaktionsschnelle Sprachinteraktion eine zentrale Herausforderung dar. NVIDIA hat mit der Einführung von PersonaPlex, einem fortschrittlichen KI-Sprachmodell, einen signifikanten Schritt in dieser Entwicklung gemacht. Dieses Modell ermöglicht eine simultane Verarbeitung von Spracheingaben und -ausgaben, was zu einer drastischen Reduzierung der Latenz führt und die Interaktion mit KI-Systemen menschlicher gestaltet.
Herkömmliche Sprachassistenzsysteme arbeiten oft sequenziell: Eine Spracherkennung (ASR) wandelt Audio in Text um, ein Sprachmodell (LLM) verarbeitet diesen Text und generiert eine Antwort, und schliesslich wandelt eine Text-zu-Sprache-Synthese (TTS) die Antwort wieder in Audio um. Dieser kaskadierte Ansatz führt zwangsläufig zu Verzögerungen und unnatürlichen Gesprächspausen, die eine flüssige Kommunikation beeinträchtigen.
PersonaPlex überwindet diese Einschränkungen durch ein Full-Duplex-Design. Das Modell ist in der Lage, gleichzeitig zuzuhören und zu sprechen, was Unterbrechungen, Rückmeldungen ("uh-huh", "oh") und einen authentischen Gesprächsrhythmus ermöglicht. Diese Fähigkeit, die zuvor in Modellen wie Moshi eingeführt wurde, wird in PersonaPlex mit einer erweiterten Anpassungsfähigkeit kombiniert. Benutzer können durch Text-Prompts beliebige Rollen definieren – von einem weisen Lehrer über einen Kundendienstmitarbeiter bis hin zu einer Fantasy-Figur – und gleichzeitig eine spezifische Stimme durch Sprach-Prompts auswählen. Dies eröffnet neue Möglichkeiten für personalisierte und kontextsensitive KI-Interaktionen.
Das PersonaPlex-Modell basiert auf einer 7 Milliarden Parameter umfassenden Moshi-Architektur von Kyutai. Es nutzt einen Mimi-Sprachdecoder und -encoder sowie Temporal- und Tiefentransformatoren zur Verarbeitung von Gesprächen. Ein wesentlicher Aspekt der Entwicklung war die Überwindung des Mangels an umfangreichen Konversationsdaten, die eine breite Palette von Emotionen und nicht-verbalen Verhaltensweisen umfassen. NVIDIA hat diesen Mangel durch eine Kombination aus realen und synthetischen Trainingsdaten adressiert:
Die Kombination dieser Datenquellen ermöglichte es PersonaPlex, sowohl die Verhaltensmuster aus realen Gesprächen als auch die Aufgabenbefolgung aus synthetischen Daten zu integrieren. Bemerkenswert ist die Fähigkeit des Modells zur Generalisierung über die Trainingsdomänen hinaus, was es ermöglicht, auch in neuen, unbekannten Szenarien kohärent und angemessen zu reagieren.
Die Fähigkeiten von PersonaPlex sind nicht auf rein virtuelle Umgebungen beschränkt. Die Technologie findet Anwendung in der Interaktion mit physischen Robotersystemen wie dem Reachy Mini. Der Reachy Mini ist ein Open-Source-Desktop-Roboter, der für die Erforschung der Mensch-Roboter-Interaktion und die Entwicklung kundenspezifischer Anwendungen konzipiert wurde. Durch die Integration von PersonaPlex mit dem Reachy Mini können Entwickler KI-Agenten erschaffen, die nicht nur hören und sprechen, sondern auch visuelle Informationen verarbeiten und physische Aktionen ausführen können.
NVIDIA hat in Zusammenarbeit mit Hugging Face eine Plattform geschaffen, die es ermöglicht, solche KI-Agenten zu entwickeln. Diese Plattform nutzt NVIDIA DGX Spark für die Rechenleistung und Reachy Mini als physischen Endpunkt. Ein Beispiel hierfür ist die Erstellung eines persönlichen KI-Assistenten, der sensible Aufgaben lokal verarbeitet und komplexere Anfragen an Cloud-basierte Modelle weiterleitet.
Die NVIDIA DGX Spark-Plattform bietet die notwendige Rechenleistung für den Betrieb komplexer KI-Modelle. Der Reachy Mini, als physische Schnittstelle, ermöglicht es dem KI-Agenten, mit seiner Umgebung zu interagieren. Er verfügt über:
Diese Kombination aus leistungsstarker KI und einem interaktiven Roboter schafft ein immersives Erlebnis, bei dem der Agent visuell wahrnehmen, sprachlich kommunizieren und auf seine Umgebung reagieren kann.
NVIDIA fördert die Entwicklung von KI-Anwendungen durch verschiedene Initiativen. Es wurde beispielsweise ein Preisgeld von ca. 7.000 US-Dollar (einschliesslich eines DGX Spark-Systems) für die beste Community-App für den Reachy Mini ausgelobt. Solche Wettbewerbe sollen die Innovation vorantreiben und die breitere Akzeptanz und Weiterentwicklung der Technologie fördern.
Darüber hinaus stellt NVIDIA Tools und Modelle bereit, die den Aufbau von Sprachagenten mit Retrieval-Augmented Generation (RAG) und Sicherheitsvorkehrungen ermöglichen. Dazu gehören Nemotron-Modelle für Spracherkennung, Einbettung, Reranking, Sicherheit und Reasoning. Diese Komponenten können flexibel kombiniert werden, um massgeschneiderte und robuste KI-Lösungen zu entwickeln.
Die Entwicklung von PersonaPlex und dessen Integration in Robotersysteme wie Reachy Mini markieren einen Fortschritt in der Mensch-Maschine-Interaktion. Die Fähigkeit zu natürlicher, latenzarmer und anpassbarer Sprachkommunikation eröffnet neue Möglichkeiten für Assistenzsysteme, Bildung, Kundenservice und darüber hinaus. Die kontinuierliche Forschung und Entwicklung in diesem Bereich wird voraussichtlich zu noch fortschrittlicheren und intuitiveren KI-Erlebnissen führen.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen