SmolLM3: Neues kompaktes multilingual Sprachmodell mit erweiterter Kontextverarbeitung

Kategorien:

No items found.

Freigegeben:

July 9, 2025

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

SmolLM3: Ein kompaktes, multilinguals Sprachmodell mit weitreichendem Kontextverständnis

Kompakte Sprachmodelle gewinnen zunehmend an Bedeutung, da Nutzer leistungsfähige Modelle suchen, die effizient eingesetzt werden können. Die Community hat eine faszinierende Reihe leistungsstarker kleiner Modelle hervorgebracht, die jeweils die Grenzen des Möglichen in dieser Größenordnung erweitern. Mit SmolLM3 freuen wir uns, ein neues wettbewerbsfähiges, vollständig offenes 3B-Modell beizusteuern.

SmolLM3 befindet sich im Sweet Spot der Effizienz. Unser 3B-Modell übertrifft Llama-3.2-3B und Qwen2.5-3B und bleibt gleichzeitig wettbewerbsfähig mit größeren 4B-Alternativen (Qwen3 & Gemma3). Über die Leistungszahlen hinaus teilen wir genau mit, wie wir es mit öffentlichen Datensätzen und Trainings-Frameworks erstellt haben.

Modellübersicht:

3B-Modell, trainiert mit 11T Token, State-of-the-Art im 3B-Bereich und wettbewerbsfähig mit 4B-Modellen
Instruct-Modell mit Dual-Mode-Reasoning, das Think/No-Think-Modi unterstützt
Mehrsprachige Unterstützung für 6 Sprachen: Englisch, Französisch, Spanisch, Deutsch, Italienisch und Portugiesisch
Langer Kontext bis zu 128k mit NoPE und YaRN

Das vollständige Rezept:

Wir veröffentlichen SmolLM3 mit unserem technischen Bauplan. Er enthält Architekturdetails, genaue Datenmischungen, die zeigen, wie wir die Leistung in verschiedenen Bereichen in einem dreistufigen Pre-Training-Ansatz schrittweise steigern, und die Methodik zum Aufbau eines hybriden Reasoning-Modells. Normalerweise würden diese Ergebnisse monatelanges Reverse Engineering erfordern. Stattdessen stellen wir die vollständige Methodik zur Verfügung.

Ob Sie Ihre eigenen Modelle erstellen oder verstehen möchten, was die Leistung in dieser Größenordnung antreibt, dieser Bauplan zeigt die technische Geschichte hinter der wettbewerbsfähigen 3B-Leistung.

Pre-Training:

SmolLM3 hat sowohl die Architektur als auch die Datenmischung gegenüber seinen Vorgängern verändert. Schauen wir uns zunächst die Architektur und die Trainingskonfigurationen an!

Architektur und Trainingsdetails:

SmolLM3 folgt einer Transformer-Decoder-Architektur mit Tied Embedding ähnlich wie SmolLM2 und baut auf der Llama-Architektur mit einigen wichtigen Modifikationen auf, die für Effizienz und Leistung bei langem Kontext optimiert sind.

Grouped Query Attention (GQA), NoPE, Intra-Document Masking, Training Stability und die Trainingskonfiguration wurden optimiert, um die Leistung und Stabilität des Modells zu verbessern.

Datenmischung und Trainingsstufen:

SmolLM3 wurde mit 11,2T Token in einem dreistufigen Trainingsprozess trainiert, der Web-, Mathematik- und Codedaten mit sich entwickelnden Anteilen mischt.

- Stufe 1: Stabile Phase (0T → 8T Token)
- Stufe 2: Stabile Phase (8T → 10T Token)
- Stufe 3: Abklingphase (10T → 11.1T Token)

Mid-Training:

Kontexterweiterung:

Nach dem Haupt-Pre-Training wurde SmolLM3 mit zusätzlichen 100B Token trainiert, um die Kontextlänge zu erweitern. Die Kontextlänge wurde in zwei Stufen von 4k auf 32k und dann auf 64k erweitert. Mit YARN kann das Modell bis zu 128k Kontext verarbeiten.

Reasoning Mid-Training:

Nach der Erweiterung der Kontextlänge wurde das Modell in einer Mid-Training-Phase trainiert, um Reasoning-Fähigkeiten zu integrieren. Ziel war es, das Modell zum Denken zu trainieren, ohne sich auf einen bestimmten Bereich zu konzentrieren.

Post-Training:

In diesem Abschnitt wird erläutert, wie ein Dual-Instruction-Modell erstellt wurde, das sowohl Reasoning- als auch Nicht-Reasoning-Modi unterstützt. Es werden die Herausforderungen beim Aufbau des Chat-Templates, beim Supervised Fine-Tuning und bei der Off-Policy-Modellausrichtung mit Anchored Preference Optimization (APO) detailliert beschrieben.

Bibliographie: https://huggingface.co/blog/smollm3 https://news.ycombinator.com/item?id=44501413 https://www.reddit.com/r/LocalLLaMA/comments/1lusr7l/smollm3_reasoning_long_context_and/ https://huggingface.co/HuggingFaceTB/SmolLM3-3B https://www.linkedin.com/posts/lewis-tunstall_really-excited-to-share-smollm3-a-strong-activity-7348387638543839236-3q-d https://x.com/LoubnaBenAllal1/status/1942614508549333211 https://x.com/_lewtun/status/1942620223800238232 https://arxiv.org/html/2502.02737v1 https://aclanthology.org/2024.mrl-1.18.pdf