KI für Ihr Unternehmen – Jetzt Demo buchen

SmolLM3: Neues kompaktes multilingual Sprachmodell mit erweiterter Kontextverarbeitung

Kategorien:
No items found.
Freigegeben:
July 9, 2025

Artikel jetzt als Podcast anhören

Inhaltsverzeichnis

    SmolLM3: Ein kompaktes, multilinguals Sprachmodell mit weitreichendem Kontextverständnis

    Kompakte Sprachmodelle gewinnen zunehmend an Bedeutung, da Nutzer leistungsfähige Modelle suchen, die effizient eingesetzt werden können. Die Community hat eine faszinierende Reihe leistungsstarker kleiner Modelle hervorgebracht, die jeweils die Grenzen des Möglichen in dieser Größenordnung erweitern. Mit SmolLM3 freuen wir uns, ein neues wettbewerbsfähiges, vollständig offenes 3B-Modell beizusteuern.

    SmolLM3 befindet sich im Sweet Spot der Effizienz. Unser 3B-Modell übertrifft Llama-3.2-3B und Qwen2.5-3B und bleibt gleichzeitig wettbewerbsfähig mit größeren 4B-Alternativen (Qwen3 & Gemma3). Über die Leistungszahlen hinaus teilen wir genau mit, wie wir es mit öffentlichen Datensätzen und Trainings-Frameworks erstellt haben.

    Modellübersicht:

    3B-Modell, trainiert mit 11T Token, State-of-the-Art im 3B-Bereich und wettbewerbsfähig mit 4B-Modellen
    Instruct-Modell mit Dual-Mode-Reasoning, das Think/No-Think-Modi unterstützt
    Mehrsprachige Unterstützung für 6 Sprachen: Englisch, Französisch, Spanisch, Deutsch, Italienisch und Portugiesisch
    Langer Kontext bis zu 128k mit NoPE und YaRN

    Das vollständige Rezept:

    Wir veröffentlichen SmolLM3 mit unserem technischen Bauplan. Er enthält Architekturdetails, genaue Datenmischungen, die zeigen, wie wir die Leistung in verschiedenen Bereichen in einem dreistufigen Pre-Training-Ansatz schrittweise steigern, und die Methodik zum Aufbau eines hybriden Reasoning-Modells. Normalerweise würden diese Ergebnisse monatelanges Reverse Engineering erfordern. Stattdessen stellen wir die vollständige Methodik zur Verfügung.

    Ob Sie Ihre eigenen Modelle erstellen oder verstehen möchten, was die Leistung in dieser Größenordnung antreibt, dieser Bauplan zeigt die technische Geschichte hinter der wettbewerbsfähigen 3B-Leistung.

    Pre-Training:

    SmolLM3 hat sowohl die Architektur als auch die Datenmischung gegenüber seinen Vorgängern verändert. Schauen wir uns zunächst die Architektur und die Trainingskonfigurationen an!

    Architektur und Trainingsdetails:

    SmolLM3 folgt einer Transformer-Decoder-Architektur mit Tied Embedding ähnlich wie SmolLM2 und baut auf der Llama-Architektur mit einigen wichtigen Modifikationen auf, die für Effizienz und Leistung bei langem Kontext optimiert sind.

    Grouped Query Attention (GQA), NoPE, Intra-Document Masking, Training Stability und die Trainingskonfiguration wurden optimiert, um die Leistung und Stabilität des Modells zu verbessern.

    Datenmischung und Trainingsstufen:

    SmolLM3 wurde mit 11,2T Token in einem dreistufigen Trainingsprozess trainiert, der Web-, Mathematik- und Codedaten mit sich entwickelnden Anteilen mischt.

    - Stufe 1: Stabile Phase (0T → 8T Token)
    - Stufe 2: Stabile Phase (8T → 10T Token)
    - Stufe 3: Abklingphase (10T → 11.1T Token)

    Mid-Training:

    Kontexterweiterung:

    Nach dem Haupt-Pre-Training wurde SmolLM3 mit zusätzlichen 100B Token trainiert, um die Kontextlänge zu erweitern. Die Kontextlänge wurde in zwei Stufen von 4k auf 32k und dann auf 64k erweitert. Mit YARN kann das Modell bis zu 128k Kontext verarbeiten.

    Reasoning Mid-Training:

    Nach der Erweiterung der Kontextlänge wurde das Modell in einer Mid-Training-Phase trainiert, um Reasoning-Fähigkeiten zu integrieren. Ziel war es, das Modell zum Denken zu trainieren, ohne sich auf einen bestimmten Bereich zu konzentrieren.

    Post-Training:

    In diesem Abschnitt wird erläutert, wie ein Dual-Instruction-Modell erstellt wurde, das sowohl Reasoning- als auch Nicht-Reasoning-Modi unterstützt. Es werden die Herausforderungen beim Aufbau des Chat-Templates, beim Supervised Fine-Tuning und bei der Off-Policy-Modellausrichtung mit Anchored Preference Optimization (APO) detailliert beschrieben.

    Bibliographie: https://huggingface.co/blog/smollm3 https://news.ycombinator.com/item?id=44501413 https://www.reddit.com/r/LocalLLaMA/comments/1lusr7l/smollm3_reasoning_long_context_and/ https://huggingface.co/HuggingFaceTB/SmolLM3-3B https://www.linkedin.com/posts/lewis-tunstall_really-excited-to-share-smollm3-a-strong-activity-7348387638543839236-3q-d https://x.com/LoubnaBenAllal1/status/1942614508549333211 https://x.com/_lewtun/status/1942620223800238232 https://arxiv.org/html/2502.02737v1 https://aclanthology.org/2024.mrl-1.18.pdf
    Mindverse vs ChatGPT Plus Widget

    Warum Mindverse Studio?

    Entdecken Sie die Vorteile gegenüber ChatGPT Plus

    Sie nutzen bereits ChatGPT Plus? Das ist ein guter Anfang! Aber stellen Sie sich vor, Sie hätten Zugang zu allen führenden KI-Modellen weltweit, könnten mit Ihren eigenen Dokumenten arbeiten und nahtlos im Team kollaborieren.

    🚀 Mindverse Studio

    Die professionelle KI-Plattform für Unternehmen – leistungsstärker, flexibler und sicherer als ChatGPT Plus. Mit über 50 Modellen, DSGVO-konformer Infrastruktur und tiefgreifender Integration in Unternehmensprozesse.

    ChatGPT Plus

    ❌ Kein strukturierter Dokumentenvergleich

    ❌ Keine Bearbeitung im Dokumentkontext

    ❌ Keine Integration von Unternehmenswissen

    VS

    Mindverse Studio

    ✅ Gezielter Dokumentenvergleich mit Custom-Prompts

    ✅ Kontextbewusste Textbearbeitung im Editor

    ✅ Wissensbasierte Analyse & Zusammenfassungen

    📚 Nutzen Sie Ihr internes Wissen – intelligent und sicher

    Erstellen Sie leistungsstarke Wissensdatenbanken aus Ihren Unternehmensdokumenten.Mindverse Studio verknüpft diese direkt mit der KI – für präzise, kontextbezogene Antworten auf Basis Ihres spezifischen Know-hows.DSGVO-konform, transparent und jederzeit nachvollziehbar.

    ChatGPT Plus

    ❌ Nur ein Modellanbieter (OpenAI)

    ❌ Keine Modellauswahl pro Use Case

    ❌ Keine zentrale Modellsteuerung für Teams

    VS

    Mindverse Studio

    ✅ Zugriff auf über 50 verschiedene KI-Modelle

    ✅ Modellauswahl pro Prompt oder Assistent

    ✅ Zentrale Steuerung auf Organisationsebene

    🧠 Zugang zu allen führenden KI-Modellen – flexibel & anpassbar

    OpenAI GPT-4: für kreative Texte und allgemeine Anwendungen
    Anthropic Claude: stark in Analyse, Struktur und komplexem Reasoning
    Google Gemini: ideal für multimodale Aufgaben (Text, Bild, Code)
    Eigene Engines: individuell trainiert auf Ihre Daten und Prozesse

    ChatGPT Plus

    ❌ Keine echte Teamkollaboration

    ❌ Keine Rechte- oder Rollenverteilung

    ❌ Keine zentrale Steuerung oder Nachvollziehbarkeit

    VS

    Mindverse Studio

    ✅ Teamübergreifende Bearbeitung in Echtzeit

    ✅ Granulare Rechte- und Freigabeverwaltung

    ✅ Zentrale Steuerung & Transparenz auf Organisationsebene

    👥 Kollaborative KI für Ihr gesamtes Unternehmen

    Nutzen Sie Mindverse Studio als zentrale Plattform für abteilungsübergreifende Zusammenarbeit.Teilen Sie Wissen, erstellen Sie gemeinsame Workflows und integrieren Sie KI nahtlos in Ihre täglichen Prozesse – sicher, skalierbar und effizient.Mit granularen Rechten, transparenter Nachvollziehbarkeit und Echtzeit-Kollaboration.

    Bereit für den nächsten Schritt?

    Sehen Sie Mindverse Studio in Aktion. Buchen Sie eine persönliche 30-minütige Demo.

    🎯 Kostenlose Demo buchen

    Wie können wir Ihnen heute helfen?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen