Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Kompakte Sprachmodelle gewinnen zunehmend an Bedeutung, da Nutzer leistungsfähige Modelle suchen, die effizient eingesetzt werden können. Die Community hat eine faszinierende Reihe leistungsstarker kleiner Modelle hervorgebracht, die jeweils die Grenzen des Möglichen in dieser Größenordnung erweitern. Mit SmolLM3 freuen wir uns, ein neues wettbewerbsfähiges, vollständig offenes 3B-Modell beizusteuern.
SmolLM3 befindet sich im Sweet Spot der Effizienz. Unser 3B-Modell übertrifft Llama-3.2-3B und Qwen2.5-3B und bleibt gleichzeitig wettbewerbsfähig mit größeren 4B-Alternativen (Qwen3 & Gemma3). Über die Leistungszahlen hinaus teilen wir genau mit, wie wir es mit öffentlichen Datensätzen und Trainings-Frameworks erstellt haben.
3B-Modell, trainiert mit 11T Token, State-of-the-Art im 3B-Bereich und wettbewerbsfähig mit 4B-Modellen
Instruct-Modell mit Dual-Mode-Reasoning, das Think/No-Think-Modi unterstützt
Mehrsprachige Unterstützung für 6 Sprachen: Englisch, Französisch, Spanisch, Deutsch, Italienisch und Portugiesisch
Langer Kontext bis zu 128k mit NoPE und YaRN
Wir veröffentlichen SmolLM3 mit unserem technischen Bauplan. Er enthält Architekturdetails, genaue Datenmischungen, die zeigen, wie wir die Leistung in verschiedenen Bereichen in einem dreistufigen Pre-Training-Ansatz schrittweise steigern, und die Methodik zum Aufbau eines hybriden Reasoning-Modells. Normalerweise würden diese Ergebnisse monatelanges Reverse Engineering erfordern. Stattdessen stellen wir die vollständige Methodik zur Verfügung.
Ob Sie Ihre eigenen Modelle erstellen oder verstehen möchten, was die Leistung in dieser Größenordnung antreibt, dieser Bauplan zeigt die technische Geschichte hinter der wettbewerbsfähigen 3B-Leistung.
SmolLM3 hat sowohl die Architektur als auch die Datenmischung gegenüber seinen Vorgängern verändert. Schauen wir uns zunächst die Architektur und die Trainingskonfigurationen an!
SmolLM3 folgt einer Transformer-Decoder-Architektur mit Tied Embedding ähnlich wie SmolLM2 und baut auf der Llama-Architektur mit einigen wichtigen Modifikationen auf, die für Effizienz und Leistung bei langem Kontext optimiert sind.
Grouped Query Attention (GQA), NoPE, Intra-Document Masking, Training Stability und die Trainingskonfiguration wurden optimiert, um die Leistung und Stabilität des Modells zu verbessern.
SmolLM3 wurde mit 11,2T Token in einem dreistufigen Trainingsprozess trainiert, der Web-, Mathematik- und Codedaten mit sich entwickelnden Anteilen mischt.
- Stufe 1: Stabile Phase (0T → 8T Token)Nach dem Haupt-Pre-Training wurde SmolLM3 mit zusätzlichen 100B Token trainiert, um die Kontextlänge zu erweitern. Die Kontextlänge wurde in zwei Stufen von 4k auf 32k und dann auf 64k erweitert. Mit YARN kann das Modell bis zu 128k Kontext verarbeiten.
Nach der Erweiterung der Kontextlänge wurde das Modell in einer Mid-Training-Phase trainiert, um Reasoning-Fähigkeiten zu integrieren. Ziel war es, das Modell zum Denken zu trainieren, ohne sich auf einen bestimmten Bereich zu konzentrieren.
In diesem Abschnitt wird erläutert, wie ein Dual-Instruction-Modell erstellt wurde, das sowohl Reasoning- als auch Nicht-Reasoning-Modi unterstützt. Es werden die Herausforderungen beim Aufbau des Chat-Templates, beim Supervised Fine-Tuning und bei der Off-Policy-Modellausrichtung mit Anchored Preference Optimization (APO) detailliert beschrieben.
Bibliographie: https://huggingface.co/blog/smollm3 https://news.ycombinator.com/item?id=44501413 https://www.reddit.com/r/LocalLLaMA/comments/1lusr7l/smollm3_reasoning_long_context_and/ https://huggingface.co/HuggingFaceTB/SmolLM3-3B https://www.linkedin.com/posts/lewis-tunstall_really-excited-to-share-smollm3-a-strong-activity-7348387638543839236-3q-d https://x.com/LoubnaBenAllal1/status/1942614508549333211 https://x.com/_lewtun/status/1942620223800238232 https://arxiv.org/html/2502.02737v1 https://aclanthology.org/2024.mrl-1.18.pdfEntdecken Sie die Vorteile gegenüber ChatGPT Plus
Sie nutzen bereits ChatGPT Plus? Das ist ein guter Anfang! Aber stellen Sie sich vor, Sie hätten Zugang zu allen führenden KI-Modellen weltweit, könnten mit Ihren eigenen Dokumenten arbeiten und nahtlos im Team kollaborieren.
Die professionelle KI-Plattform für Unternehmen – leistungsstärker, flexibler und sicherer als ChatGPT Plus. Mit über 50 Modellen, DSGVO-konformer Infrastruktur und tiefgreifender Integration in Unternehmensprozesse.
❌ Kein strukturierter Dokumentenvergleich
❌ Keine Bearbeitung im Dokumentkontext
❌ Keine Integration von Unternehmenswissen
✅ Gezielter Dokumentenvergleich mit Custom-Prompts
✅ Kontextbewusste Textbearbeitung im Editor
✅ Wissensbasierte Analyse & Zusammenfassungen
Erstellen Sie leistungsstarke Wissensdatenbanken aus Ihren Unternehmensdokumenten.Mindverse Studio verknüpft diese direkt mit der KI – für präzise, kontextbezogene Antworten auf Basis Ihres spezifischen Know-hows.DSGVO-konform, transparent und jederzeit nachvollziehbar.
❌ Nur ein Modellanbieter (OpenAI)
❌ Keine Modellauswahl pro Use Case
❌ Keine zentrale Modellsteuerung für Teams
✅ Zugriff auf über 50 verschiedene KI-Modelle
✅ Modellauswahl pro Prompt oder Assistent
✅ Zentrale Steuerung auf Organisationsebene
❌ Keine echte Teamkollaboration
❌ Keine Rechte- oder Rollenverteilung
❌ Keine zentrale Steuerung oder Nachvollziehbarkeit
✅ Teamübergreifende Bearbeitung in Echtzeit
✅ Granulare Rechte- und Freigabeverwaltung
✅ Zentrale Steuerung & Transparenz auf Organisationsebene
Nutzen Sie Mindverse Studio als zentrale Plattform für abteilungsübergreifende Zusammenarbeit.Teilen Sie Wissen, erstellen Sie gemeinsame Workflows und integrieren Sie KI nahtlos in Ihre täglichen Prozesse – sicher, skalierbar und effizient.Mit granularen Rechten, transparenter Nachvollziehbarkeit und Echtzeit-Kollaboration.
Sehen Sie Mindverse Studio in Aktion. Buchen Sie eine persönliche 30-minütige Demo.
🎯 Kostenlose Demo buchenLernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen