Neue Generation der Phi-3 Mini-KI-Modelle revolutioniert plattformübergreifende Anwendungen

In der Welt der künstlichen Intelligenz (KI) erleben wir derzeit eine rasante Entwicklung, die täglich neue Innovationen hervorbringt. Eine der jüngsten und bemerkenswertesten Entwicklungen ist die Verfügbarkeit der Phi-3 Mini-4k und 128k Modelle auf dem Hugging Face Hub. Diese Modelle sind in optimierten ONNX-Formaten verfügbar und unterstützen eine plattformübergreifende Nutzung auf CPUs, GPUs und mobilen Geräten. Die Integration in Transformer-Architekturen wurde ebenfalls vereinfacht, sodass Entwickler und Unternehmen schnell von diesen fortschrittlichen KI-Modellen profitieren können. Phi-3 Mini ist ein leichtgewichtiges, hochmodernes offenes Modell, das auf Datensätzen basiert, die für Phi-2 verwendet wurden – synthetische Daten und gefilterte Websites – mit einem Fokus auf sehr hochwertige, logisch dichte Daten. Das Modell gehört zur Phi-3-Modellfamilie und die Mini-Version wird in zwei Varianten angeboten: 4K und 128K, was die unterstützte Kontextlänge (in Token) darstellt. Das Modell wurde einem strengen Verbesserungsprozess unterzogen, der sowohl überwachtes Feintuning als auch direkte Präferenzoptimierung umfasst, um genaue Anweisungsbefolgung und robuste Sicherheitsmaßnahmen zu gewährleisten. Die optimierten Phi-3 Mini-Modelle sind im ONNX-Format veröffentlicht, um mit ONNX Runtime auf CPU und GPU über verschiedene Geräte hinweg ausgeführt zu werden, einschließlich Serverplattformen, Windows-, Linux- und Mac-Desktops sowie mobilen CPUs, wobei die für jeden dieser Ziele am besten geeignete Präzision verwendet wird. Die Unterstützung von DirectML ermöglicht es Entwicklern, Hardwarebeschleunigung auf Windows-Geräten im großen Maßstab über AMD-, Intel- und NVIDIA-GPUs zu bringen. Zusammen mit DirectML bietet ONNX Runtime eine plattformübergreifende Unterstützung für Phi-3 Mini für eine Vielzahl von Geräten für CPU, GPU und Mobilgeräte. Um mit Phi-3 Mini schnell zu beginnen, können Entwickler die neu eingeführte ONNX Runtime Generate() API verwenden. Weitere Informationen darüber, wie sie implementiert wird, sind im entsprechenden Leitfaden zu finden. Hier sind einige der optimierten Konfigurationen, die hinzugefügt wurden: - ONNX-Modell für int4 DML: ONNX-Modell für AMD-, Intel- und NVIDIA-GPUs auf Windows, quantisiert auf int4 mithilfe von AWQ. - ONNX-Modell für fp16 CUDA: ONNX-Modell, das für NVIDIA-GPUs ausgeführt werden kann. - ONNX-Modell für int4 CUDA: ONNX-Modell für NVIDIA-GPUs unter Verwendung von int4-Quantisierung über RTN. - ONNX-Modell für int4 CPU und Mobile: ONNX-Modell für CPU und mobile Geräte unter Verwendung von int4-Quantisierung über RTN. Es wurden zwei Versionen hochgeladen, um Latenz gegenüber Genauigkeit abzuwägen. Weitere Updates zu AMD und zusätzliche Optimierungen für CPU und Mobile werden mit dem offiziellen ORT 1.18 Release Anfang Mai hinzugefügt. Die Modelle wurden auf folgenden Hardwarekonfigurationen getestet: - GPU SKU: RTX 4090 (DirectML) - GPU SKU: 1 A100 80GB GPU, SKU: Standard_ND96amsr_A100_v4 (CUDA) - CPU SKU: Standard F64s v2 (64 vcpus, 128 GiB Speicher) - Mobile SKU: Samsung Galaxy S21 Mindestkonfigurationsanforderungen: - Windows: DirectX 12-fähige GPU und mindestens 4 GB kombinierter RAM - CUDA: Streaming Multiprocessors (SMs) >= 70 (d.h. V100 oder neuer) Die Phi-3-Modelle sind von Microsoft entwickelt worden und stehen unter der MIT-Lizenz. Sie sind in verschiedenen Sprachen verfügbar und für eine Vielzahl von NLP-Aufgaben einsetzbar. Für diejenigen, die an weiteren technischen Details und Benchmarks interessiert sind, stehen umfangreiche Ressourcen zur Verfügung, einschließlich eines technischen Berichts, eines Modellkartenkontakts und verschiedener Blogs, die die ONNX Runtime-Optimierungen und das Phi-3-Modell selbst behandeln. Gradio, eine weitere wichtige Komponente in dieser Entwicklung, ermöglicht es Benutzern, ihre KI-Modelle als Web-App in Python-Code zu demonstrieren. Gradio umhüllt eine Python-Funktion in eine Benutzeroberfläche und die Demos können in Jupyter-Notebooks, Colab-Notebooks sowie auf der eigenen Website eingebettet und kostenlos auf Hugging Face Spaces gehostet werden. Angesichts der wachsenden Bedeutung von ONNX-Modellen und der Notwendigkeit, KI-Modelle über verschiedene Plattformen und Geräte hinweg zugänglich zu machen, ist es klar, dass Tools wie Gradio und ONNX entscheidend sind, um die Barriere für den Einstieg in die KI zu senken und die Anwendung von KI zu demokratisieren. Mindverse, das als allumfassendes KI-Content-Tool für Text, Inhalte, Bilder und Forschung dient und ebenfalls als KI-Partner fungiert, entwickelt maßgeschneiderte Lösungen wie Chatbots, Voicebots, KI-Suchmaschinen, Wissenssysteme und vieles mehr. Mit diesen fortschrittlichen Werkzeugen und Lösungen ist Mindverse gut positioniert, um in der sich ständig weiterentwickelnden Landschaft der künstlichen Intelligenz eine führende Rolle zu spielen. Quellen: - Hugging Face: microsoft/Phi-3-mini-4k-instruct-onnx - Gradio and ONNX on Hugging Face Guide - Hugging Face Transformers Dokumentation: GPU-Inferenz - GitHub ONNX Model Zoo - Gradio-Hub auf Hugging Face - ONNX Runtime Optimierungen Blog - Phi-3 Modell Blog - Phi-3 Modellkarte - Phi-3 Technischer Bericht - Gradio und Hugging Face Integration Guide