Das chinesische KI-Unternehmen MiniMax hat mit der Veröffentlichung der MiniMax-01-Serie, bestehend aus MiniMax-Text-01 und MiniMax-VL-01, einen beachtlichen Fortschritt im Bereich der Foundation Models erzielt. Die Modelle zeichnen sich durch ihre Fähigkeit aus, deutlich längere Kontexte zu verarbeiten als vergleichbare, führende Modelle.
Im Zentrum dieser Innovation steht die sogenannte "Lightning Attention". Diese Technologie ermöglicht eine effiziente Skalierung der Modelle und bildet die Grundlage für die beeindruckende Kontextlänge. Um die Rechenkapazität zu maximieren, wurde Lightning Attention mit dem Mixture-of-Experts (MoE)-Ansatz kombiniert. Das resultierende Modell verfügt über 32 Experten und insgesamt 456 Milliarden Parameter, von denen für jedes Token 45,9 Milliarden aktiviert werden.
Die Entwickler von MiniMax haben eine optimierte Parallelisierungsstrategie sowie effiziente Techniken zur Überlappung von Berechnung und Kommunikation für MoE und Lightning Attention entwickelt. Diese Optimierungen ermöglichen ein effizientes Training und Inferenz von Modellen mit hunderten von Milliarden Parametern über Kontexte, die Millionen von Token umfassen. MiniMax-Text-01 kann während des Trainings Kontextfenster von bis zu einer Million Token verarbeiten und extrapoliert während der Inferenz auf bis zu vier Millionen Token – und das zu überschaubaren Kosten.
Das Vision-Language-Modell MiniMax-VL-01 wurde durch weiteres Training mit 512 Milliarden Vision-Language-Token entwickelt. Es kombiniert die Stärken von Text- und Bildverarbeitung und eröffnet damit neue Möglichkeiten für Anwendungen im Bereich der multimodalen KI.
In Tests auf Standard- und internen Benchmarks zeigte sich, dass die MiniMax-01-Modelle in puncto Leistung mit State-of-the-Art-Modellen wie GPT-4o und Claude-3.5-Sonnet mithalten können. Gleichzeitig bieten sie ein 20- bis 32-mal größeres Kontextfenster, was einen signifikanten Vorteil bei der Verarbeitung langer Texte und komplexer Aufgaben darstellt.
MiniMax hat die MiniMax-01-Modelle als Open Source veröffentlicht und somit der Forschungsgemeinschaft und Entwicklern weltweit zugänglich gemacht. Dies ermöglicht eine breite Nutzung und Weiterentwicklung der Technologie und trägt zur Beschleunigung der Innovation im Bereich der KI bei.
Die MiniMax-01-Serie stellt einen wichtigen Meilenstein in der Entwicklung von Foundation Models dar. Die Kombination von Lightning Attention und MoE ermöglicht die effiziente Skalierung auf enorme Kontextlängen und eröffnet neue Möglichkeiten für die Verarbeitung und das Verständnis von Informationen. Die Open-Source-Veröffentlichung der Modelle unterstreicht das Engagement von MiniMax für die Förderung der KI-Forschung und -Entwicklung.
Bibliographie - https://filecdn.minimax.chat/_Arxiv_MiniMax_01_Report.pdf - https://x.com/ai_for_success/status/1879234539027067080 - https://www.chatpaper.com/chatpaper/fr?id=3&date=1736870400&page=1 - https://x.com/emostaque?lang=de - https://twitter.com/testingcatalog/status/1879308732745875555 - https://icml.cc/virtual/2024/papers.html - https://neurips.cc/virtual/2023/papers.html - https://machinelearning.apple.com/research - https://arxiv.org/abs/2403.04652