Xiaomi präsentiert neue MiMo-KI-Modelle zur Stärkung von Agenten und Robotik

Kategorien:

No items found.

Freigegeben:

March 23, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Xiaomi hat drei neue KI-Modelle eingeführt: MiMo-V2-Pro, MiMo-V2-Omni und MiMo-V2-TTS, die eine umfassende Plattform für KI-Agenten bilden sollen.
Das Flaggschiff MiMo-V2-Pro zeigt in Benchmarks für Codierung und Agentenaufgaben eine Leistung, die der von Anthropic's Claude Opus 4.6 nahekommt, jedoch zu deutlich geringeren API-Kosten.
MiMo-V2-Omni ist ein multimodales Modell, das visuelle, akustische und sprachliche Informationen verarbeiten und autonom agieren kann.
MiMo-V2-TTS ermöglicht eine emotionale Sprachsynthese, die feine Nuancen und sogar Gesang berücksichtigt.
Vor der offiziellen Veröffentlichung wurde MiMo-V2-Pro anonym als "Hunter Alpha" auf OpenRouter getestet und erreichte dort hohe Bewertungen.
Xiaomi plant erhebliche Investitionen in KI und positioniert sich als ernstzunehmender Akteur im globalen KI-Wettbewerb.

Xiaomis Vorstoß in die Ära der KI-Agenten: Eine Analyse der neuen MiMo-Modelle

Der chinesische Technologiekonzern Xiaomi hat kürzlich eine strategische Offensive im Bereich der künstlichen Intelligenz gestartet. Mit der gleichzeitigen Veröffentlichung von drei neuen MiMo-KI-Modellen – MiMo-V2-Pro, MiMo-V2-Omni und MiMo-V2-TTS – unterstreicht das Unternehmen seine Ambitionen, eine umfassende Plattform für KI-Agenten zu etablieren. Diese Modelle sind darauf ausgelegt, Software autonom zu steuern, Browser-Interaktionen zu handhaben und zukünftig sogar Roboter zu kontrollieren.

MiMo-V2-Pro: Das Flaggschiff für komplexe Aufgaben

Das Herzstück dieser Veröffentlichung ist das MiMo-V2-Pro. Dieses Modell basiert auf einer Mixture-of-Experts-Architektur mit über einer Billion Gesamtparametern, von denen 42 Milliarden pro Anfrage aktiv sind. Dies stellt eine signifikante Steigerung gegenüber dem Vorgänger MiMo-V2-Flash dar, der im Dezember 2025 eingeführt wurde. Trotz des erhöhten Umfangs gewährleistet ein hybrider Aufmerksamkeitsmechanismus eine hohe Effizienz, der Kontextfenster von bis zu einer Million Token ermöglicht. Die Fähigkeit, mehrere Token gleichzeitig zu generieren, führt zudem zu einer spürbaren Geschwindigkeitsverbesserung.

In unabhängigen Benchmarks zeigt das MiMo-V2-Pro beeindruckende Leistungen. Auf dem Artificial Analysis Intelligence Index belegt es weltweit den siebten Platz und ist damit das leistungsstärkste chinesische Modell nach GLM-5 und MiniMax-M2.7. Im Bereich Codierung erreicht es auf dem SWE-bench Verified Benchmark 78 Prozent, nur knapp hinter Claude Opus 4.6 (80,8 Prozent) und in Reichweite von Claude Sonnet 4.6 (79,6 Prozent). Bei Agentenaufgaben, gemessen mit ClawEval, erzielt es 81 Punkte und nähert sich damit den 81,5 Punkten von Claude Opus 4.6 an, während GPT-5.2 bei 77 Punkten liegt.

Preissetzung als Wettbewerbsvorteil

Ein bemerkenswerter Aspekt von Xiaomis Strategie ist die aggressive Preisgestaltung. Das MiMo-V2-Pro kostet laut Plattformseite einen US-Dollar pro Million Input-Tokens und drei US-Dollar pro Million Output-Tokens für Kontextlängen von bis zu 256.000 Tokens. Im Vergleich dazu sind die Kosten für Claude Sonnet 4.6 mit drei bzw. 15 US-Dollar und Claude Opus 4.6 mit fünf bzw. 25 US-Dollar pro Million Tokens deutlich höher. Xiaomi verzichtet zudem vorerst auf Gebühren für das Schreiben in den Cache.

Das Modell ist über eine öffentliche API zugänglich. Zur Markteinführung hat Xiaomi Partnerschaften mit fünf Agenten-Frameworks geschlossen: OpenClaw, OpenCode, KiloCode, Blackbox und Cline. Entwicklern weltweit wird für eine Woche kostenloser API-Zugang gewährt.

MiMo-V2-Omni: Multimodale Wahrnehmung und autonomes Handeln

Das MiMo-V2-Omni integriert Bild-, Video- und Audio-Encoder in einem gemeinsamen Backbonde. Dies ermöglicht dem Modell, wahrzunehmen und auf seine Umgebung zu reagieren. Es unterstützt nativ strukturierte Tool-Aufrufe, führt Funktionen aus und navigiert eigenständig durch Benutzeroberflächen.

Xiaomis Angaben zufolge übertrifft MiMo-V2-Omni Gemini 3 Pro im Audiobereich und kann kontinuierlich über zehn Stunden lang aufzeichnen. Bei Bildverarbeitungsaufgaben (MMMU-Pro: 76,8) liegt es vor Claude Opus 4.6 (73,9). Bei Agenten-Benchmarks erreicht das Omni-Modell jedoch nur 54,8 Punkte auf ClawEval, was deutlich hinter Claude Opus 4.6 (66,3) und GPT-5.2 (59,6) liegt. Dennoch übertraf es sowohl Gemini 3 Pro als auch GPT-5.2 im MM-BrowserComp-Benchmark für Web-Navigation.

Demonstrationen zeigten die Fähigkeiten des Modells: Es analysierte Dashcam-Aufnahmen, um Fußgänger, entgegenkommende Fahrzeuge und Engpässe in Echtzeit als potenzielle Gefahren zu identifizieren. In einem anderen Szenario öffnete MiMo-V2-Omni eigenständig einen Browser, suchte Produktbewertungen auf der chinesischen Plattform Xiaohongshu, verglich Preise auf JD.com, verhandelte Rabatte mit dem Kundenservice per Chat und schloss den Kauf ab. Eine weitere Demonstration zeigte das Modell beim Erstellen von Multimedia-Inhalten, dem Debuggen des zugrunde liegenden Codes und dem Veröffentlichen des Ergebnisses auf TikTok über den Browser – alles ohne menschliches Zutun. MiMo-V2-Omni trifft dabei die Entscheidungen, während das Open-Source-Framework OpenClaw die eigentlichen Klicks und Dateioperationen übernimmt.

MiMo-V2-TTS: Emotionale Sprachsynthese der nächsten Generation

Das Sprachsynthesemodell MiMo-V2-TTS wurde laut Xiaomi mit über 100 Millionen Stunden Sprachdaten trainiert. Es zerlegt Sprache in mehrere parallele Schichten diskreter Einheiten, was eine feinere Kontrolle über Klang, Rhythmus und Emotion ermöglicht als bei herkömmlichen TTS-Systemen.

Der entscheidende Unterschied liegt in der Möglichkeit, die gewünschte Stimme in natürlicher Sprache zu beschreiben, anstatt eine Emotion aus einer Dropdown-Liste auszuwählen. So klingt beispielsweise "Schläfrig, gerade aufgewacht, leicht heiser" anders als "wütend, aber versucht, ruhig zu bleiben". Das Modell generiert auch paralinguistische Laute wie Husten, Zögern, Seufzen und Lachen als Teil der Ausgabe, anstatt Audioclips nachträglich einzufügen.

Xiaomi gibt an, dass MiMo-V2-TTS die einzige kommerziell verfügbare TTS-API ist, die sowohl Sprache als auch Gesang nativ im selben Modell verarbeitet. Typographische Hinweise wie Großbuchstaben oder wiederholte Zeichen werden als Signale für Betonung und Rhythmus interpretiert, sodass "DAS IST WICHTIG" mit echtem Nachdruck ausgesprochen wird und nicht nur mit höherer Lautstärke. Selbst ohne Stilvorgaben erfasst das Modell den richtigen Ton direkt aus dem Text.

Wettbewerbsfähige Benchmarks, aber noch Entwicklungspotenzial

Die gleichzeitige Einführung von drei spezialisierten Modellen sendet ein klares Signal: Xiaomi strebt den Aufbau einer Full-Stack-Plattform für KI-Agenten an. Die Benchmarks zeigen, dass die Modelle in einigen Bereichen mit Produkten von Anthropic und OpenAI konkurrieren können, in anderen jedoch noch Aufholbedarf besteht. Insbesondere bei allgemeinen Agentenaufgaben muss MiMo-V2-Pro noch weiterentwickelt werden, um mit Claude Opus 4.6 gleichzuziehen.

Das MiMo-Team konzentriert sich als Nächstes auf langfristige Planung über Stunden und Tage, Echtzeit-Streaming, koordinierte Multi-Agenten-Systeme und Robotik. Das Team formuliert seine Vision wie folgt: "Wir glauben, dass der Weg zu allgemeiner Intelligenz durch die reale Welt führt. Ein Modell, das nur Text liest, lebt in einer Bibliothek. Ein Modell, das sieht, hört, denkt und handelt, lebt in der Welt."

Das "Hunter Alpha"-Mysterium

Vor der offiziellen Vorstellung war MiMo-V2-Pro anonym auf der API-Plattform OpenRouter unter dem Codenamen "Hunter Alpha" gelistet. Xiaomi berichtet von einem stetigen Anstieg der Nutzung: Das Modell führte tagelang die täglichen Rankings an und verzeichnete insgesamt über eine Billion Tokens. Der mit Abstand beliebteste Anwendungsfall war die Codierung.

Viele Nutzer vermuteten, dass Hunter Alpha tatsächlich Deepseek V4 sei. Deepseek ist jedoch noch nicht so weit – Berichten zufolge wurde das nächste große Deepseek-Modell aufgrund seiner wachsenden Größe verschoben.

Andere chinesische KI-Labore sind ebenfalls aktiv. Zhipu AI hat kürzlich GLM-5 veröffentlicht, ein Open-Source-Modell mit 744 Milliarden Parametern, das mit Claude Opus 4.5 und GPT-5.2 bei Codierungs- und Agentenaufgaben konkurrieren soll. Kimi K2.5 von Moonshot AI verfolgt einen anderen Ansatz mit Schwärmen von Agenten, die parallel arbeiten, und Alibaba hat seine Qwen 3.5-Reihe erweitert.

Fazit

Xiaomis Einführung der MiMo-V2-Modelle markiert einen bedeutenden Schritt in der Entwicklung von KI-Agenten. Mit einer Kombination aus leistungsstarken Sprachmodellen, multimodalen Fähigkeiten und fortschrittlicher Sprachsynthese positioniert sich das Unternehmen als ernstzunehmender Akteur im globalen KI-Wettbewerb. Die aggressive Preisgestaltung könnte zudem die Akzeptanz bei Entwicklern und Unternehmen fördern. Es bleibt abzuwarten, wie sich diese Modelle in der Praxis bewähren und welche weiteren Innovationen Xiaomi in den kommenden Jahren präsentieren wird.

Bibliographie

Jonathan Kemper, "Xiaomi launches three MiMo AI models to power agents, robots, and voice", The Decoder, 22. März 2026.
Bootlab, "Xiaomi Releases Trio of MiMo AI Models Tailored for Agents, Robots and Voice Applications", MLQ.ai, 22. März 2026.
Gu Zhaowei, "Xiaomi Unveils Trio of Large AI Models in $8.7 Billion Bet", Caixin Global, 21. März 2026.
"Xiaomi launches three MiMo AI models to power agents ... - LinkedIn", LinkedIn, 22. März 2026.
"Xiaomi launches three MiMo AI models to power agents, robots, and voice - AI General - Gnoppix Forum", Gnoppix Forum, 22. März 2026.
"Xiaomi launches three MiMo AI models to power agents, robots, and ...", Ground News, 22. März 2026.
Jorick van Weelie, "Xiaomi releases MiMo-V2-Pro, Omni and TTS models", Datanorth.ai, 19. März 2026.
"Xiaomi Unveils Three In-House Foundation Models, Confirms MiMo-V2-Pro Identity", Pandaily, 19. März 2026.
"AI News (2026/3/19): Xiaomi Launches Three Large Models for the Agent Era - AI Tools Directory", AI Tools Directory, 19. März 2026.
"MiMo-V2: Xiaomi AI Models for Reasoning, Multimodal, Voice & API", mimo-v2.org.