Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Im Bereich der mobilen künstlichen Intelligenz (KI) hat das Multi-X Team von OPPO einen bedeutenden Schritt unternommen. Es hat X-OmniClaw, einen Edge-nativen KI-Agenten für Android, als Open-Source-Lösung veröffentlicht. Diese Entwicklung markiert eine Abkehr von traditionellen Cloud-zentrierten Ansätzen, da X-OmniClaw direkt auf dem physischen Gerät arbeitet und Kamera, Bildschirm sowie Stimme des Nutzers integriert, um Aufgaben effizient und ohne Umwege über Cloud-Instanzen zu erledigen.
Der technische Bericht von OPPOs KI-Zentrum hebt den grundlegenden Unterschied zwischen X-OmniClaw und bestehenden Cloud-basierten Plattformen wie RedFinger, Alibabas Wuying oder Tencent Cloud Phone hervor. Während diese Dienste Agenten in virtualisierten Android-Instanzen in Rechenzentren betreiben, was den Zugriff auf lokale Sensoren, Kameras oder private Daten einschränkt, verfolgt X-OmniClaw einen entgegengesetzten Ansatz. Die Kernlogik für Wahrnehmung, Steuerung und App-Interaktion ist direkt auf dem Android-Gerät angesiedelt. Cloud-basierte Sprachmodelle werden lediglich als „Treibstoff“ für komplexere Schlussfolgerungen herangezogen, wenn dies erforderlich ist. Dies ermöglicht eine robustere Interaktion mit der realen Welt und den lokalen Daten des Nutzers.
X-OmniClaw bündelt drei Wahrnehmungskanäle – Kamera, Bildschirm und Stimme – in einer einzigen Pipeline. Ein Vision-Language-Modell (VLM) interpretiert zunächst die Szene zusammen mit der Anfrage des Nutzers, bevor eine Aktion ausgelöst wird. Das System kombiniert Text-, Sprach-, Kamera- und Bildschirmsignale, gleicht diese zeitlich ab und leitet eine strukturierte Absicht an das Sprachmodell weiter. Ein Beispiel hierfür ist, wenn ein Nutzer die Kamera auf ein Produkt richtet und fragt: „Wie viel kostet das bei Taobao?“. Das System erkennt das Produkt, beispielsweise ein Evian-Spray, und formuliert die Anfrage intern um in „Der Nutzer möchte den Preis von Evian-Spray bei Taobao wissen“, bevor es die Suche und Interaktion in der entsprechenden App startet.
Für eine langfristige Gedächtnisfunktion wandelt X-OmniClaw lokale Daten in semantische Einträge um. Während Ruhezeiten werden Fotos aus der Galerie in kompakte Beschreibungen von Objekten, Szenen und Ereignissen verarbeitet und in einer Markdown-Datei gespeichert. Dieser Prozess beinhaltet eine Filterung sensibler Inhalte, bevor die Daten gesichert werden. Der Bericht betont die Absicht, zukünftig die semantische Bildzusammenfassung direkt auf dem Gerät durchzuführen, um zu gewährleisten, dass Rohbilder das Telefon niemals verlassen. Dies unterstreicht das Engagement für den Datenschutz der Nutzer.
Anstatt jede Aktion von Grund auf neu zu planen, kopiert X-OmniClaw das Nutzerverhalten und speichert es als wiederverwendbare Fähigkeiten. Das System extrahiert den vollständigen Startbefehl für eine App-Seite und springt beim nächsten Mal direkt über einen Deeplink dorthin, anstatt den ursprünglichen Tipppfad zu wiederholen. Sollte dies fehlschlagen, greift das System auf schrittweise einfachere Startmethoden zurück. Um anklickbare Elemente zu erkennen, kombiniert X-OmniClaw strukturelle XML-Daten mit einem Grounding-Modell und Texterkennung. Dies ist besonders hilfreich in werbelastigen oder visuell unübersichtlichen Oberflächen, wo XML allein keine präzise Klickposition liefern kann.
Die Fähigkeiten von X-OmniClaw werden in verschiedenen Szenarien demonstriert:
Das Projekt baut auf der Open-Source-Codebasis von HermesApp auf und positioniert sich zwischen OpenClaw, das stärker auf PCs ausgerichtet ist, und dem auf emergenten Fähigkeiten basierenden Hermes Agent von Nous Research. OPPOs Entscheidung, X-OmniClaw als Open-Source zu veröffentlichen, signalisiert einen Wettbewerbsdruck im Bereich des multimodalen Agentendesigns und könnte die Entwicklung von KI-Agenten auf Android-Geräten maßgeblich beeinflussen. Die kontinuierliche Weiterentwicklung zielt darauf ab, die Effizienz, den Datenschutz und die Benutzerfreundlichkeit weiter zu verbessern, unter anderem durch Mechanismen zur Selbstentwicklung, dynamische Speicherverwaltung und eine optimierte Synergie zwischen Gerät und Cloud.
Dieser Schritt von OPPO könnte die Tür für eine neue Generation von mobilen KI-Agenten öffnen, die Leistungsfähigkeit mit einem starken Fokus auf den Datenschutz der Nutzer verbinden, indem sie die Datenverarbeitung so weit wie möglich auf dem Gerät selbst durchführen.
Bibliographie
- OPPO-Mente-Lab/X-OmniClaw: an edge-native Multimodal ... - GitHub. (2026, April 15). https://github.com/OPPO-Mente-Lab/X-OmniClaw - A Unified Mobile Agent for Multimodal Understanding and Interaction. (2026, May). https://arxiv.org/html/2605.05765v1 - Oppo open-sources Android AI agent X-OmniClaw that uses your camera, screen, and voice without leaving the phone. (2026, May 17). The Decoder. https://the-decoder.com/oppo-open-sources-android-ai-agent-x-omniclaw-that-uses-your-camera-screen-and-voice-without-leaving-the-phone/ - [Literature Review] X-OmniClaw Technical Report: A Unified Mobile Agent for Multimodal Understanding and Interaction. (n.d.). Themoonlight.io. https://www.themoonlight.io/en/review/x-omniclaw-technical-report-a-unified-mobile-agent-for-multimodal-understanding-and-interaction - X-OmniClaw Technical Report: A Unified Mobile Agent for Multimodal Understanding and Interaction | Cool Papers - Immersive Paper Discovery. (2026, May 7). Papers.cool. https://papers.cool/arxiv/2605.05765 - 카메라 들이대고 "이거 얼마야?" 물으면 폰이 알아서 타오바오를 연다, 오포(OPPO)가 공개한 엣지 AI 에이전트 - AI매터스. (2026, May 11). AI매터스. https://aimatters.co.kr/news-report/41889/ - Paper page - X-OmniClaw Technical Report: A Unified Mobile Agent for Multimodal Understanding and Interaction. (n.d.). Hugging Face. https://huggingface.co/papers/2605.05765 - [5/17 09:00] Oppo X-OmniClaw o… – AI News Flash - Apple Podcasts. (2026, May 17). Apple Podcasts. https://podcasts.apple.com/us/podcast/5-17-09-00-oppo-x-omniclaw-open-source-android-ai-agent/id1873892136?i=1000768237110&l=vi - Oppo open-sources Android AI agent X-OmniClaw that ... - Modelwire. (2026, May 17). Themodelwire.com. https://themodelwire.com/article/oppo-open-sources-android-ai-agent-x-omniclaw-that-uses-your-camera-screen-and-v-01KRTEJJTC554EBH368KM2G8E2 - Oppo’s X‑OmniClaw scrolls, captures & reads in‑app prices. Want .... (2026, May 17). Instagram. https://www.instagram.com/p/DYb1UonjooU/Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen