Das chinesische KI-Unternehmen MiniMax hat kürzlich seine neue Modellreihe MiniMax-01 als Open Source veröffentlicht. Diese umfasst zwei Modelle: das Sprachmodell MiniMax-Text-01 und das visuelle Multimodalmodell MiniMax-VL-01. Beide Modelle zeichnen sich durch ihre Fähigkeit aus, besonders lange Kontexte zu verarbeiten, was sie für den Einsatz in KI-Agenten prädestiniert.
MiniMax-Text-01 basiert auf einer innovativen Architektur, die Lightning Attention genannt wird. Diese stellt eine Alternative zur traditionellen Transformer-Architektur dar und ermöglicht die Verarbeitung von bis zu 4 Millionen Tokens. Das ist 20 bis 32 Mal mehr als bei anderen führenden Modellen. Trotz dieser enormen Kontextlänge erreicht MiniMax-Text-01 eine Performance, die mit anderen global führenden Modellen vergleichbar ist. Das Modell verfügt über 456 Milliarden Parameter, von denen 45,9 Milliarden pro Inferenz aktiviert werden.
MiniMax betont die zunehmende Bedeutung langer Kontexte für die Entwicklung von KI-Agenten. Sowohl für das Gedächtnis einzelner Agenten als auch für die Kommunikation zwischen mehreren Agenten sind längere Kontexte entscheidend. MiniMax-01 stellt einen ersten Schritt in diese Richtung dar und soll die Grundlage für komplexere Agenten-Systeme bilden.
Durch architektonische Innovationen, Effizienzoptimierungen und ein integriertes Cluster-Design für Training und Inferenz bietet MiniMax seine Text- und Multimodal-APIs zu wettbewerbsfähigen Preisen an. Der Standardpreis liegt bei 0,2 US-Dollar pro Million Input-Tokens und 1,1 US-Dollar pro Million Output-Tokens. Die Modelle sind über die MiniMax Open Platform zugänglich.
In Benchmarks für Text- und Multimodalverständnis erreicht MiniMax-01 eine Performance, die mit anderen führenden Modellen vergleichbar ist. Besonders hervorzuheben ist die geringe Leistungsabnahme bei zunehmender Inputlänge. Die Architektur von MiniMax-Text-01 kombiniert Lightning Attention mit traditioneller Softmax Attention. Innerhalb von jeweils acht Schichten basieren sieben auf linearer Lightning Attention und eine Schicht verwendet Softmax Attention.
Die Skalierung der linearen Attention auf das Niveau kommerziell nutzbarer Modelle ist eine Premiere in der Branche. MiniMax hat dabei verschiedene Aspekte berücksichtigt, darunter Skalierungsgesetze, die Integration von Mixture of Experts (MoE), Strukturdesign sowie Trainings- und Inferenzoptimierung. Da es sich um das erste Modell dieser Größe handelt, das primär auf linearer Attention basiert, wurden die Trainings- und Inferenzsysteme von MiniMax grundlegend überarbeitet. Dies beinhaltet unter anderem eine effizientere MoE All-to-all Kommunikationsoptimierung, Optimierungen für längere Sequenzen und die effiziente Kernel-Implementierung der linearen Attention-Schicht auf Inferenzebene.
MiniMax hat sich aus zwei Hauptgründen für die Open-Source-Veröffentlichung entschieden: Erstens soll die Arbeit weitere Forschung und Anwendungen im Bereich des Long-Context-Verständnisses anregen und die Entwicklung von KI-Agenten beschleunigen. Zweitens soll Open Source als Motivation für weitere Innovationen und höhere Qualität bei der Modellentwicklung dienen. Die Modelle sind auf GitHub verfügbar und sollen regelmäßig aktualisiert werden, unter anderem mit Verbesserungen im Bereich Code und Multimodalität.
MiniMax-Text-01: https://huggingface.co/MiniMaxAI/MiniMax-Text-01 MiniMax-VL-01: https://huggingface.co/MiniMaxAI/MiniMax-VL-01 GitHub Repository: https://github.com/MiniMax-AI/MiniMax-01 MiniMax API Plattform: https://www.minimaxi.com/en/platform Hailuo AI: hailuo.ai