Die Entwicklung von Sprachmodellen verläuft zweigleisig: Große Sprachmodelle (LLMs) erweitern die Grenzen der künstlichen Intelligenz in Rechenzentren, während kleine Sprachmodelle (SLMs) für den ressourcenschonenden Einsatz auf mobilen Geräten wie Smartphones optimiert werden. Trotz der zunehmenden Bedeutung von SLMs in der Verbrauchertechnologie sind ihre tatsächliche Leistung und Anwendung auf Smartphones noch wenig erforscht.
Aktuelle Entwicklungen wie Qwen-2, SmolLM, Gemini Nano, Apple Intelligence oder LLaMA-3.2 unterstreichen die wachsende Relevanz von SLMs in mobilen Anwendungen. Ein umfassendes Verständnis ihrer Leistung auf High-End-Smartphones fehlt jedoch. Im Gegensatz zu früheren Arbeiten, die sich hauptsächlich auf die Entwicklung kleinerer Modelle ohne umfangreiche Tests auf realen Geräten konzentrierten, zielt dieser Artikel darauf ab, diese Lücke zu schließen. Er präsentiert eine detaillierte Studie zur Entwicklung und Bereitstellung von SLMs auf einem Samsung Galaxy S24, wobei der Fokus auf drei Aufgaben der Dokumentenunterstützung liegt: Zusammenfassung (SUMM), Fragenvorschlag (QS) und Beantwortung von Fragen (QA). Durch die effiziente On-Device-Dokumentenverarbeitung kann dieses Verfahren die Serverkosten, die mit API-Aufrufen an Cloud-basierte Dienste verbunden sind, erheblich senken und gleichzeitig die Privatsphäre der Benutzer verbessern.
Der Artikel befasst sich mit kritischen Fragen zur optimalen Modellgröße, maximalen Kontextlänge, Inferenzlatenz, Speicherbeschränkungen und Leistungsabwägungen auf mobilen Geräten. Um diese Fragen zu beantworten, wird SlimLM vorgestellt, eine Reihe von kleinen Sprachmodellen, die speziell für die mobile Bereitstellung entwickelt und optimiert wurden. SlimLM wird auf SlimPajama-627B vortrainiert und auf DocAssist feinabgestimmt, einem spezialisierten Datensatz, der auf etwa 83.000 Dokumenten für die Dokumentenunterstützung basiert. Die Modelle reichen von 125 Millionen bis 7 Milliarden Parametern, wodurch das gesamte Spektrum dessen, was auf aktueller mobiler Hardware möglich ist, erforscht werden kann.
Die Suche nach dem optimalen Verhältnis zwischen Modellgröße, Kontextlänge und Inferenzzeit ist entscheidend. Größere Modelle benötigen möglicherweise viel Zeit und Speicherplatz, um geladen zu werden, sodass sie trotz höherer Leistung möglicherweise keine langen Kontexte verarbeiten können. Kleinere Modelle können längere Kontexte in kürzerer Zeit verarbeiten, aber es ist nicht bekannt, wie stark ihre Leistung abnimmt.
Um dieses Gleichgewicht zu finden, wurden verschiedene State-of-the-Art-Modelle (SoTA) von 125 Millionen bis 8 Milliarden Parametern ausgewählt, da die Bereitstellung von Modellen mit mehr als 8 Milliarden Parametern selbst nach der Quantisierung sehr schwierig ist. Für die Quantisierung und Bereitstellung wurde das MLC-LLM-Framework verwendet, da es eine breite Palette von SoTA-Modellen und die GPU-Nutzung auf mobilen Geräten unterstützt. Alle Modelle wurden mit der Gruppenquantisierungsmethode mit einer Gruppengröße von 32 in 4 Bit quantisiert.
Da Aufgaben der Dokumentenunterstützung die Verarbeitung langer Kontexteingabe erfordern, wurden Experimente mit verschiedenen Kontextlängen 𝐿 bis zu 1.000 Token durchgeführt, um die Effizienz der Modelle zu messen, z. B. Eingabe-Token pro Sekunde (ITPS), Ausgabe-Token pro Sekunde (OTPS), Zeit bis zum ersten Token (TTFT) und Gesamtlaufzeit in Sekunden. Ein Dokument wurde tokenisiert und die Token in 𝑁=5 Abschnitte unterteilt, wobei jeder Abschnitt maximal 𝑚𝑎𝑥(𝐿)𝑁=200 Token enthielt. Es wurde ein (𝐿=200), zwei (𝐿=400) und bis zu fünf Abschnitte als Kontexteingabe für die Modelle zur Zusammenfassung vorbereitet.
Die Ergebnisse zeigen einen klaren Kompromiss zwischen Modellgröße und Geschwindigkeit. Kleinere Modelle wie SmolLM oder Qwen2 weisen höhere Inferenzgeschwindigkeiten (IPTS, TTFT) auf, aber möglicherweise eine geringere Genauigkeit im Vergleich zu größeren Modellen (z. B. Gemma-2, Phi-3.5, Mistral oder Llama-3.1). Mit zunehmender Eingabelänge nimmt die Inferenzgeschwindigkeit der meisten Modelle ab, was die Auswirkungen der Promptgröße auf die Effizienz verdeutlicht. Wenn der Eingabekontext ungefähr 1.000 Token (5 Abschnitte) erreicht, haben kleinere Modelle (z. B. SmolLM, Qwen2) Schwierigkeiten, mehrere experimentelle Läufe abzuschließen, während größere Modelle bei diesen langen Eingaben Speicherbeschränkungen ausgesetzt sind. Mittelgroße Modelle wie Qwen2-0.5B-Instruct bieten häufig ein ausgewogenes Verhältnis zwischen Geschwindigkeit, Genauigkeit und Eingabekapazität und stellen möglicherweise den besten Kompromiss für praktische Anwendungen innerhalb bestimmter Eingabelängenbeschränkungen dar.
SlimLM erzielt in Standardmetriken wie BLEU, ROUGE, Semantic Textual Similarity (STS), Self-BLEU für Textdiversität und GEval vergleichbare oder sogar bessere Ergebnisse als vorhandene SLMs ähnlicher Größe. Das kleinste Modell SlimLM-125M zeigt eine effiziente Leistung auf dem S24 und eignet sich daher für eine breite Bereitstellung. Größere Varianten mit bis zu 7 Milliarden Parametern bieten erweiterte Funktionen und arbeiten dennoch innerhalb der mobilen Beschränkungen. Um die praktische Anwendbarkeit zu demonstrieren, wurde eine Android-Anwendung entwickelt, die die Funktionen von SlimLM zur Dokumentenunterstützung präsentiert.
Bibliographie: https://arxiv.org/abs/2411.09944 https://arxiv.org/html/2411.09944v1 https://paperreading.club/page?id=266551 https://shankarkumarasamy.blog/2024/08/30/optimizing-ai-with-small-language-models-slms-for-on-device-applications/ https://cobusgreyling.medium.com/small-language-model-slm-efficiency-performance-potential-ed59c4d48ce9 https://www.xueshuxiangzi.com/ http://arxivdaily.com/thread/61460 https://www.linkedin.com/pulse/small-language-models-making-ai-more-accessible-efficient-sorci-eqgxe http://lonepatient.top/2024/11/18/arxiv_papers_2024-11-18 https://hyperight.com/breaking-barriers-small-language-models-and-accessibility-of-ai-language-processing/Entdecken Sie die Vorteile gegenüber ChatGPT Plus
Sie nutzen bereits ChatGPT Plus? Das ist ein guter Anfang! Aber stellen Sie sich vor, Sie hätten Zugang zu allen führenden KI-Modellen weltweit, könnten mit Ihren eigenen Dokumenten arbeiten und nahtlos im Team kollaborieren.
Die professionelle KI-Plattform für Unternehmen – leistungsstärker, flexibler und sicherer als ChatGPT Plus. Mit über 50 Modellen, DSGVO-konformer Infrastruktur und tiefgreifender Integration in Unternehmensprozesse.
❌ Kein strukturierter Dokumentenvergleich
❌ Keine Bearbeitung im Dokumentkontext
❌ Keine Integration von Unternehmenswissen
✅ Gezielter Dokumentenvergleich mit Custom-Prompts
✅ Kontextbewusste Textbearbeitung im Editor
✅ Wissensbasierte Analyse & Zusammenfassungen
Erstellen Sie leistungsstarke Wissensdatenbanken aus Ihren Unternehmensdokumenten.Mindverse Studio verknüpft diese direkt mit der KI – für präzise, kontextbezogene Antworten auf Basis Ihres spezifischen Know-hows.DSGVO-konform, transparent und jederzeit nachvollziehbar.
❌ Nur ein Modellanbieter (OpenAI)
❌ Keine Modellauswahl pro Use Case
❌ Keine zentrale Modellsteuerung für Teams
✅ Zugriff auf über 50 verschiedene KI-Modelle
✅ Modellauswahl pro Prompt oder Assistent
✅ Zentrale Steuerung auf Organisationsebene
❌ Keine echte Teamkollaboration
❌ Keine Rechte- oder Rollenverteilung
❌ Keine zentrale Steuerung oder Nachvollziehbarkeit
✅ Teamübergreifende Bearbeitung in Echtzeit
✅ Granulare Rechte- und Freigabeverwaltung
✅ Zentrale Steuerung & Transparenz auf Organisationsebene
Nutzen Sie Mindverse Studio als zentrale Plattform für abteilungsübergreifende Zusammenarbeit.Teilen Sie Wissen, erstellen Sie gemeinsame Workflows und integrieren Sie KI nahtlos in Ihre täglichen Prozesse – sicher, skalierbar und effizient.Mit granularen Rechten, transparenter Nachvollziehbarkeit und Echtzeit-Kollaboration.
Sehen Sie Mindverse Studio in Aktion. Buchen Sie eine persönliche 30-minütige Demo.
🎯 Kostenlose Demo buchenLernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen