Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Der Reachy Mini Roboter, eine Entwicklung von Pollen Robotics, erreicht einen neuen Meilenstein in der autonomen Interaktion. Es ist nun möglich, ihn mit vollständig lokalen KI-Agenten zu betreiben. Diese Entwicklung ermöglicht es Anwendern, den gesamten Kommunikationsstack – von der Spracherkennung bis zur Sprachausgabe – auf der eigenen Hardware zu betreiben, ohne auf Cloud-Dienste angewiesen zu sein. Für Unternehmen bietet dieser Ansatz signifikante Vorteile in Bezug auf Datenschutz, Betriebssicherheit und Kostenkontrolle.
Die Entscheidung für eine vollständig lokale KI-Verarbeitung basiert auf mehreren strategischen Überlegungen, die insbesondere für B2B-Anwendungen relevant sind:
In Branchen wie dem Gesundheitswesen, der öffentlichen Verwaltung oder der Verteidigung sind strenge Datenschutzauflagen und Datensouveränitätsanforderungen von höchster Relevanz. Eine lokale Verarbeitung stellt sicher, dass sensible Daten die eigenen Räumlichkeiten oder das lokale Netzwerk nicht verlassen. Dies minimiert das Risiko von Datenlecks und erfüllt Compliance-Vorgaben, wie sie beispielsweise die DSGVO in Europa vorschreibt.
Cloud-basierte KI-Lösungen sind von einer stabilen Internetverbindung abhängig. Dies kann in Umgebungen mit eingeschränkter Netzwerkkonnektivität oder bei kritischen Anwendungen zu Ausfällen führen. Ein lokal betriebenes System funktioniert unabhängig von externen Netzwerkinfrastrukturen, was die Zuverlässigkeit und Verfügbarkeit erhöht. Erfahrungen aus der Praxis zeigen, dass selbst bei Großveranstaltungen mit komplexen Netzwerkstrukturen lokale Lösungen eine höhere Ausfallsicherheit bieten.
Der Verzicht auf Cloud-APIs und tokenbasierte Abrechnungsmodelle ermöglicht eine präzisere Kalkulation der Betriebskosten. Die anfängliche Investition in Hardware wird durch den Wegfall laufender Gebühren relativiert. Für Unternehmen, die eine Vielzahl von Robotern oder KI-Agenten einsetzen möchten, kann dies zu erheblichen Einsparungen führen. Zudem bietet die lokale Hardware die Möglichkeit, die Leistung bei Bedarf durch Skalierung der eigenen Infrastruktur anzupassen.
Die Grundlage für die lokale Sprachinteraktion bildet die "Speech-to-Speech"-Bibliothek von Hugging Face. Diese Bibliothek implementiert einen kaskadierten Ansatz, bei dem verschiedene KI-Modelle sequenziell zusammenarbeiten, um eine natürliche Konversation zu ermöglichen. Die Architektur gliedert sich in vier Hauptstufen:
Die VAD-Komponente ist dafür verantwortlich, den Beginn und das Ende von Sprachbeiträgen in einem Audiostrom zu erkennen. Für diese Aufgabe wird typischerweise Silero VAD v5 eingesetzt. Dieses Modell zeichnet sich durch seine geringe Größe, hohe Präzision und die Fähigkeit aus, effizient auf CPUs zu laufen. Es ist ein etablierter Standard in der Entwicklung von Sprachagenten.
Nachdem ein Sprachsegment identifiziert wurde, wandelt die STT-Komponente die Audioinformation in Text um. Hierfür wird Parakeet-TDT empfohlen. Dieses Modell ist für seine Geschwindigkeit und gute Qualität bei englischer Sprache bekannt und eignet sich besonders gut für Streaming-Anwendungen, da es kontinuierlich die Spracheingabe verarbeitet.
Das LLM ist das "Gehirn" des Systems, das die verstandene Textanfrage interpretiert, eine Antwort generiert und gegebenenfalls Werkzeuge (Tools) aufruft, um Aktionen auszuführen. Die Auswahl des LLM hat den größten Einfluss auf die Latenz und die Qualität der Interaktion. Es gibt verschiedene Optionen für die Bereitstellung des LLM:
Für eine optimale Konversationserfahrung wird empfohlen, Modelle wie Gemma 4 oder Qwen3-4B-Instruct zu verwenden, die ein gutes Gleichgewicht zwischen Geschwindigkeit und Qualität bieten.
Die TTS-Komponente wandelt die generierte Textantwort des LLM zurück in gesprochene Sprache um. Qwen3-TTS ist hier eine bevorzugte Wahl, da es eine expressive, mehrsprachige Sprachausgabe mit geringer Latenz ermöglicht und sogar die Unterstützung von benutzerdefinierten Stimmen bietet.
Die Implementierung einer vollständig lokalen KI-Pipeline ist mit spezifischen technischen Herausforderungen verbunden, die bei der Entwicklung und Bereitstellung berücksichtigt werden müssen:
Die Zuverlässigkeit der Audioeingabe kann variieren. Das Reachy Mini SDK bietet zwar Methoden zur Audioaufnahme, jedoch kann es vorkommen, dass das Mikrofon nicht immer korrekt erkannt wird. Ein direkter Zugriff auf das Audio-Interface über ALSA (Advanced Linux Sound Architecture) mittels Befehlen wie arecord kann hier eine robuste Alternative darstellen. Dabei ist zu beachten, dass spezifische ALSA-Gerätenamen und Stereo-Aufnahmen erforderlich sein können.
Die Motoren des Reachy Mini müssen nach dem Start der Anwendung möglicherweise initialisiert werden, bevor sie auf Befehle reagieren. Ein "Priming"-Zyklus, bei dem die Anwendung kurz gestartet und wieder beendet wird, kann die physische Reaktionsfähigkeit des Roboters sicherstellen. Präzise Bewegungen der Antennen und des Kopfes tragen wesentlich zur Ausdruckskraft des Roboters bei und verbessern die Wahrnehmung der Interaktion als natürlich.
Die Verwaltung von Konfigurationsparametern, wie IP-Adressen externer Server, kann komplex sein, da Umgebungsvariablen in Subprozessen des Roboters nicht immer verfügbar sind. Eine praktikable Lösung ist das direkte Patchen von Quellcodedateien mit den erforderlichen Informationen, um sicherzustellen, dass die Anwendung die korrekten Adressen verwendet. Alternativ können auch CLI-Argumente oder `.env`-Dateien genutzt werden, um Konfigurationen zu übergeben.
Bei Abstürzen oder unerwartetem Verhalten der Reachy Mini-App kann die Diagnose schwierig sein, da der Daemon des Roboters oft nur eine generische "App finished"-Meldung ohne detaillierte Fehlermeldung ausgibt. Eine bewährte Methode zur Fehlerbehebung ist das manuelle Testen des Imports der Anwendung via SSH auf dem Roboter. Eine umfassende Protokollierung aller Konfigurationswerte beim Start der Anwendung ist zudem essentiell, um Probleme schnell identifizieren zu können.
Statt fester Aufnahmezeiten wird eine sprachaktivitätsbasierte Aufzeichnung mittels VAD implementiert. Hierbei wird die Audioaufnahme in kleinen Segmenten (z.B. 1-Sekunden-Blöcken) durchgeführt und die RMS-Energie jedes Blocks analysiert. Sobald ein Schwellenwert überschritten wird, beginnt die Sprachaufnahme, die erst nach einer definierten Anzahl aufeinanderfolgender stiller Blöcke beendet wird. Dieser adaptive Ansatz optimiert die Reaktionszeiten und die Effizienz der Verarbeitung.
Um die Interaktion natürlicher und ansprechender zu gestalten, werden Kopf- und Antennenbewegungen des Roboters in die Konversation integriert. Diese Bewegungen signalisieren den Zustand des Roboters (z.B. "bereit", "hörend", "denkend", "sprechend") und tragen dazu bei, dass der Roboter als "lebendiger" wahrgenommen wird. Übergänge zwischen diesen Zuständen erfolgen automatisch im Konversationsfluss.
Die Bereitstellung des Systems erfordert eine koordinierte Einrichtung beider Geräte (Roboter und Computer mit KI-Stack) im selben Netzwerk. Ein zentrales Startskript automatisiert die Erkennung von IP-Adressen, die Konfiguration des Roboters, den Start des Docker-Containers für den KI-Stack sowie die Initialisierung der Motoren und den Start der App. Vorabprüfungen des Skripts stellen sicher, dass alle Komponenten ordnungsgemäß funktionieren.
Die gesamte Pipeline, von der Spracherkennung bis zur Sprachausgabe, ist auf niedrige Latenz ausgelegt. Optimierungen wie das Vorwärmen des LLM (LLM warmup) und die streaming-basierte Satz-für-Satz-Sprachsynthese tragen dazu bei, dass der Roboter schnell und flüssig auf Spracheingaben reagiert. Die Verwendung von quantisierten Modellen auf Hardware mit begrenzter Speicherbandbreite, wie dem Jetson Orin NX, ist entscheidend für die Erzielung akzeptabler Geschwindigkeiten.
Die Architektur des Systems ist modular aufgebaut, sodass einzelne Komponenten wie VAD, STT, LLM und TTS flexibel ausgetauscht werden können. Dies ermöglicht es Anwendern, die Pipeline an spezifische Anforderungen anzupassen, sei es durch die Wahl anderer Modelle oder die Integration neuer Technologien.
Die Bestrebungen, die gesamte KI-Pipeline vollständig auf einem Gerät wie dem Jetson Orin zu betreiben, sind vielversprechend, erfordern jedoch weitere Optimierungen. Ansätze wie die Verwendung von Rust-basierten Dataflow-Frameworks (z.B. dora-rs), C++-Inferenzengines und die Nutzung spezieller Hardware-Kerne (DLA cores) könnten die Effizienz und Speicherauslastung weiter verbessern. Dies würde eine noch robustere und ressourcenschonendere lokale Bereitstellung ermöglichen.
Die Möglichkeit, den Reachy Mini Roboter vollständig lokal mit KI-Agenten zu betreiben, markiert einen wichtigen Schritt in der Entwicklung autonomer Systeme. Die Vorteile in den Bereichen Datenschutz, Zuverlässigkeit und Kostenkontrolle machen diesen Ansatz besonders attraktiv für B2B-Anwendungen, die eine sichere und anpassbare KI-Interaktion erfordern.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen