Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Der chinesische Technologiekonzern Xiaomi hat kürzlich eine strategische Offensive im Bereich der künstlichen Intelligenz gestartet. Mit der gleichzeitigen Veröffentlichung von drei neuen MiMo-KI-Modellen – MiMo-V2-Pro, MiMo-V2-Omni und MiMo-V2-TTS – unterstreicht das Unternehmen seine Ambitionen, eine umfassende Plattform für KI-Agenten zu etablieren. Diese Modelle sind darauf ausgelegt, Software autonom zu steuern, Browser-Interaktionen zu handhaben und zukünftig sogar Roboter zu kontrollieren.
Das Herzstück dieser Veröffentlichung ist das MiMo-V2-Pro. Dieses Modell basiert auf einer Mixture-of-Experts-Architektur mit über einer Billion Gesamtparametern, von denen 42 Milliarden pro Anfrage aktiv sind. Dies stellt eine signifikante Steigerung gegenüber dem Vorgänger MiMo-V2-Flash dar, der im Dezember 2025 eingeführt wurde. Trotz des erhöhten Umfangs gewährleistet ein hybrider Aufmerksamkeitsmechanismus eine hohe Effizienz, der Kontextfenster von bis zu einer Million Token ermöglicht. Die Fähigkeit, mehrere Token gleichzeitig zu generieren, führt zudem zu einer spürbaren Geschwindigkeitsverbesserung.
In unabhängigen Benchmarks zeigt das MiMo-V2-Pro beeindruckende Leistungen. Auf dem Artificial Analysis Intelligence Index belegt es weltweit den siebten Platz und ist damit das leistungsstärkste chinesische Modell nach GLM-5 und MiniMax-M2.7. Im Bereich Codierung erreicht es auf dem SWE-bench Verified Benchmark 78 Prozent, nur knapp hinter Claude Opus 4.6 (80,8 Prozent) und in Reichweite von Claude Sonnet 4.6 (79,6 Prozent). Bei Agentenaufgaben, gemessen mit ClawEval, erzielt es 81 Punkte und nähert sich damit den 81,5 Punkten von Claude Opus 4.6 an, während GPT-5.2 bei 77 Punkten liegt.
Ein bemerkenswerter Aspekt von Xiaomis Strategie ist die aggressive Preisgestaltung. Das MiMo-V2-Pro kostet laut Plattformseite einen US-Dollar pro Million Input-Tokens und drei US-Dollar pro Million Output-Tokens für Kontextlängen von bis zu 256.000 Tokens. Im Vergleich dazu sind die Kosten für Claude Sonnet 4.6 mit drei bzw. 15 US-Dollar und Claude Opus 4.6 mit fünf bzw. 25 US-Dollar pro Million Tokens deutlich höher. Xiaomi verzichtet zudem vorerst auf Gebühren für das Schreiben in den Cache.
Das Modell ist über eine öffentliche API zugänglich. Zur Markteinführung hat Xiaomi Partnerschaften mit fünf Agenten-Frameworks geschlossen: OpenClaw, OpenCode, KiloCode, Blackbox und Cline. Entwicklern weltweit wird für eine Woche kostenloser API-Zugang gewährt.
Das MiMo-V2-Omni integriert Bild-, Video- und Audio-Encoder in einem gemeinsamen Backbonde. Dies ermöglicht dem Modell, wahrzunehmen und auf seine Umgebung zu reagieren. Es unterstützt nativ strukturierte Tool-Aufrufe, führt Funktionen aus und navigiert eigenständig durch Benutzeroberflächen.
Xiaomis Angaben zufolge übertrifft MiMo-V2-Omni Gemini 3 Pro im Audiobereich und kann kontinuierlich über zehn Stunden lang aufzeichnen. Bei Bildverarbeitungsaufgaben (MMMU-Pro: 76,8) liegt es vor Claude Opus 4.6 (73,9). Bei Agenten-Benchmarks erreicht das Omni-Modell jedoch nur 54,8 Punkte auf ClawEval, was deutlich hinter Claude Opus 4.6 (66,3) und GPT-5.2 (59,6) liegt. Dennoch übertraf es sowohl Gemini 3 Pro als auch GPT-5.2 im MM-BrowserComp-Benchmark für Web-Navigation.
Demonstrationen zeigten die Fähigkeiten des Modells: Es analysierte Dashcam-Aufnahmen, um Fußgänger, entgegenkommende Fahrzeuge und Engpässe in Echtzeit als potenzielle Gefahren zu identifizieren. In einem anderen Szenario öffnete MiMo-V2-Omni eigenständig einen Browser, suchte Produktbewertungen auf der chinesischen Plattform Xiaohongshu, verglich Preise auf JD.com, verhandelte Rabatte mit dem Kundenservice per Chat und schloss den Kauf ab. Eine weitere Demonstration zeigte das Modell beim Erstellen von Multimedia-Inhalten, dem Debuggen des zugrunde liegenden Codes und dem Veröffentlichen des Ergebnisses auf TikTok über den Browser – alles ohne menschliches Zutun. MiMo-V2-Omni trifft dabei die Entscheidungen, während das Open-Source-Framework OpenClaw die eigentlichen Klicks und Dateioperationen übernimmt.
Das Sprachsynthesemodell MiMo-V2-TTS wurde laut Xiaomi mit über 100 Millionen Stunden Sprachdaten trainiert. Es zerlegt Sprache in mehrere parallele Schichten diskreter Einheiten, was eine feinere Kontrolle über Klang, Rhythmus und Emotion ermöglicht als bei herkömmlichen TTS-Systemen.
Der entscheidende Unterschied liegt in der Möglichkeit, die gewünschte Stimme in natürlicher Sprache zu beschreiben, anstatt eine Emotion aus einer Dropdown-Liste auszuwählen. So klingt beispielsweise "Schläfrig, gerade aufgewacht, leicht heiser" anders als "wütend, aber versucht, ruhig zu bleiben". Das Modell generiert auch paralinguistische Laute wie Husten, Zögern, Seufzen und Lachen als Teil der Ausgabe, anstatt Audioclips nachträglich einzufügen.
Xiaomi gibt an, dass MiMo-V2-TTS die einzige kommerziell verfügbare TTS-API ist, die sowohl Sprache als auch Gesang nativ im selben Modell verarbeitet. Typographische Hinweise wie Großbuchstaben oder wiederholte Zeichen werden als Signale für Betonung und Rhythmus interpretiert, sodass "DAS IST WICHTIG" mit echtem Nachdruck ausgesprochen wird und nicht nur mit höherer Lautstärke. Selbst ohne Stilvorgaben erfasst das Modell den richtigen Ton direkt aus dem Text.
Die gleichzeitige Einführung von drei spezialisierten Modellen sendet ein klares Signal: Xiaomi strebt den Aufbau einer Full-Stack-Plattform für KI-Agenten an. Die Benchmarks zeigen, dass die Modelle in einigen Bereichen mit Produkten von Anthropic und OpenAI konkurrieren können, in anderen jedoch noch Aufholbedarf besteht. Insbesondere bei allgemeinen Agentenaufgaben muss MiMo-V2-Pro noch weiterentwickelt werden, um mit Claude Opus 4.6 gleichzuziehen.
Das MiMo-Team konzentriert sich als Nächstes auf langfristige Planung über Stunden und Tage, Echtzeit-Streaming, koordinierte Multi-Agenten-Systeme und Robotik. Das Team formuliert seine Vision wie folgt: "Wir glauben, dass der Weg zu allgemeiner Intelligenz durch die reale Welt führt. Ein Modell, das nur Text liest, lebt in einer Bibliothek. Ein Modell, das sieht, hört, denkt und handelt, lebt in der Welt."
Vor der offiziellen Vorstellung war MiMo-V2-Pro anonym auf der API-Plattform OpenRouter unter dem Codenamen "Hunter Alpha" gelistet. Xiaomi berichtet von einem stetigen Anstieg der Nutzung: Das Modell führte tagelang die täglichen Rankings an und verzeichnete insgesamt über eine Billion Tokens. Der mit Abstand beliebteste Anwendungsfall war die Codierung.
Viele Nutzer vermuteten, dass Hunter Alpha tatsächlich Deepseek V4 sei. Deepseek ist jedoch noch nicht so weit – Berichten zufolge wurde das nächste große Deepseek-Modell aufgrund seiner wachsenden Größe verschoben.
Andere chinesische KI-Labore sind ebenfalls aktiv. Zhipu AI hat kürzlich GLM-5 veröffentlicht, ein Open-Source-Modell mit 744 Milliarden Parametern, das mit Claude Opus 4.5 und GPT-5.2 bei Codierungs- und Agentenaufgaben konkurrieren soll. Kimi K2.5 von Moonshot AI verfolgt einen anderen Ansatz mit Schwärmen von Agenten, die parallel arbeiten, und Alibaba hat seine Qwen 3.5-Reihe erweitert.
Xiaomis Einführung der MiMo-V2-Modelle markiert einen bedeutenden Schritt in der Entwicklung von KI-Agenten. Mit einer Kombination aus leistungsstarken Sprachmodellen, multimodalen Fähigkeiten und fortschrittlicher Sprachsynthese positioniert sich das Unternehmen als ernstzunehmender Akteur im globalen KI-Wettbewerb. Die aggressive Preisgestaltung könnte zudem die Akzeptanz bei Entwicklern und Unternehmen fördern. Es bleibt abzuwarten, wie sich diese Modelle in der Praxis bewähren und welche weiteren Innovationen Xiaomi in den kommenden Jahren präsentieren wird.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen