Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Entwicklung großer Sprachmodelle (LLMs) schreitet rasant voran, insbesondere in den Bereichen allgemeine Fähigkeiten, Langkontext-Schlussfolgerungen und multimodales Verständnis. Während proprietäre Systeme wie Gemini und Claude die Leistungsgrenzen verschieben, zeigen Open-Weight-Modelle wie Apriel-1.5-15B-Thinker, dass fortschrittliche multimodale Schlussfolgerungsfähigkeiten auch mit weniger Rechenressourcen erreicht werden können.
Die aktuelle Landschaft der Künstlichen Intelligenz ist geprägt von einer ständigen Suche nach leistungsfähigeren und zugänglicheren Modellen. Insbesondere multimodale Modelle, die sowohl Text- als auch Bildinformationen verarbeiten können, stehen im Fokus des Interesses. Das Apriel-1.5-15B-Thinker-Modell, ein Open-Weight-Modell mit 15 Milliarden Parametern, demonstriert einen Ansatz, der Spitzenleistungen durch intelligentes Trainingsdesign anstelle schierer Größe erzielt. Es zielt darauf ab, die Kluft zwischen den Fähigkeiten hochmoderner Modelle und den praktischen Anforderungen an Recheneffizienz und Bereitstellungskosten zu überbrücken.
Die Herausforderung besteht darin, Modelle zu entwickeln, die komplexe Schlussfolgerungen durchführen können, ohne exzessive Hardware-Ressourcen zu benötigen. Viele Organisationen sind auf On-Premise- oder Air-Gapped-Bereitstellungen angewiesen, die kompakte Modelle mit vorhersehbarem Ressourcenverbrauch erfordern. Apriel-1.5-15B-Thinker begegnet diesen Herausforderungen mit einer dreistufigen Methodik, die die Datenqualität und eine gestufte Präsentation der Trainingsdaten in den Vordergrund stellt.
Apriel-1.5-15B-Thinker baut auf der Pixtral-12B-Architektur auf, die einen Vision-Encoder mit einem multimodalen Decoder über ein zweischichtiges vollständig verbundenes Projektionsnetzwerk verbindet. Diese Architektur ermöglicht eine effiziente Verarbeitung von visuellen und textuellen Informationen.
Ein entscheidender Schritt im Trainingsprozess ist die Tiefenskalierung. Dabei wird der Decoder von 40 auf 48 Schichten erweitert, um die Schlussfolgerungskapazität zu erhöhen, ohne das Modell von Grund auf neu vortrainieren zu müssen. Diese Skalierung wird auf einem umfangreichen Korpus von Text-Tokens durchgeführt, der hochwertige Web-Inhalte, technische Literatur, mathematische Problemstellungen, Programmiercode und Diskussionen von Plattformen wie StackExchange umfasst. Ein Teil dieser Daten dient als "Replay Data", um die Stabilität des Trainings zu gewährleisten.
Anschließend wird das Projektionsnetzwerk neu ausgerichtet. Dies geschieht durch Training mit Daten aus Bildunterschriften-Datensätzen, multimodalen Instruktions-Antwort-Paaren und Szenarien zum Dokumentenverständnis. Während dieser Phase bleiben der Vision-Encoder und der Decoder eingefroren, um eine gezielte Anpassung des Verbindungsstücks zwischen den Modalitäten zu ermöglichen.
Sowohl die Tiefenskalierung als auch die Neuausrichtung des Projektionsnetzwerks wurden mit einer Sequenzlänge von 8192 (unter Verwendung von Sequence Packing) und einer Lernrate von 5e-5 mit linearem Zerfall trainiert. Die Gewichte mehrerer Zwischen-Checkpoints wurden gemittelt, um die Stabilität und Leistung zu optimieren.
Das CPT ist ein zentraler Bestandteil der Methodik und gliedert sich in zwei Phasen, die darauf abzielen, die textuellen und visuellen Schlussfolgerungsfähigkeiten des Modells schrittweise zu verbessern.
Die erste Stufe umfasst das Training auf einem Datensatz, der zu 50 % aus rein textuellen Tokens (mathematisches und wissenschaftliches Schlussfolgern, Kodierungsaufgaben, Allgemeinwissen), zu 20 % aus wiederholten Tokens der Decoder-Skalierungsphase und zu 30 % aus multimodalen Tokens besteht. Letztere umfassen Daten zum Dokumentenverständnis, Diagrammverständnis und -schlussfolgern, Bildunterschriften, Langform-Bildbeschreibungen, OCR-bezogene Aufgaben sowie Schlussfolgerungen über mathematische und logische Probleme in visuellen Kontexten.
In dieser Phase bleiben alle Komponenten des Modells (Vision-Encoder, Projektionsnetzwerk und Decoder) unfrozen, um die foundationalen visuellen Fähigkeiten zu stärken. Das Training erfolgt mit einer Sequenzlänge von 32768 und einer Lernrate von 5e-5 mit Cosinus-Zerfall und 10 % Warmup.
Zur weiteren Stärkung der visuellen Schlussfolgerungen wird in der zweiten Stufe ein gezielter multimodaler Datensatz durch eine Pipeline zur Generierung synthetischer Daten erstellt. Diese Pipeline transformiert Rohbilder in aufgabenorientierte Trainingsbeispiele, die das Modell dazu anregen, räumliche Strukturen, kompositorisches Verständnis und feinkörnige Wahrnehmung zu lernen, die auf komplexere visuelle Schlussfolgerungen übertragen werden können. Die primären Kategorien sind:
In dieser Stufe wird der Vision-Encoder eingefroren, während nur das Projektionsnetzwerk und der Decoder aktualisiert werden. Das Training erfolgt mit einer Sequenzlänge von 16384 und einer Lernrate von 1e-5. Bei Instruktions-Antwort-Formaten wird der Verlust nur auf die Antworten berechnet.
Evaluierungen zeigen, dass CPT Stufe 2 die Leistung bei visuellen Schlussfolgerungsaufgaben deutlich verbessert, beispielsweise mit einem Anstieg von +9.65 Punkten bei MathVerse (Vision Dominant) und +5.98 Punkten bei CharXiv (Descriptive).
Nach den Skalierungs- und CPT-Phasen, die ein Basismodell mit starken Schlussfolgerungsfähigkeiten hervorbrachten, wurde ein Supervised Fine-Tuning (SFT) durchgeführt, um das Modell zu einem vollständigen Reasoner zu entwickeln.
Angesichts der Rechenbeschränkungen, die das Training größerer Annotator-Modelle ausschließen, wurde der Schwerpunkt auf die Kuratierung und Synthese hochwertiger, signalreicher Prompts gelegt. Offene Modelle dienten als Annotatoren. Eine umfangreiche Datenverarbeitungspipeline sorgte für höchste Datenqualität durch Deduplizierung, Inhaltsfilterung und heuristische Filterung. Die Korrektheit der Daten wurde mittels "LLM-as-Judge" und ausführungsbasierter Verifikation überprüft, um fehlerhafte oder minderwertige Instruktions-Antwort-Paare zu eliminieren. Alle Samples wurden konsistent formatiert und einer Dekontaminationsphase unterzogen, um Überschneidungen mit Benchmarks zu vermeiden.
Der Datensatz umfasste Millionen hochwertiger Instruktions-Antwort-Paare. Jede Antwort enthielt explizite Schlussfolgerungsschritte, die zur endgültigen Antwort führten. Die Samples deckten Bereiche wie mathematisches Schlussfolgern, Kodierung, wissenschaftliches Schlussfolgern, Tool-Aufrufe, generisches Schlussfolgern, wissensintensive Samples, Konversationen, Instruktions-Folgen, Sicherheit, Inhaltsmoderation und Robustheit ab.
Das Training erfolgte über mehrere Epochen mit langen Sequenzlängen (bis zu 49.152 Tokens). Um die Gesamt- und Langkontextleistung zu verbessern, wurden zwei kleinere SFT-Durchläufe durchgeführt und deren Gewichte gemittelt. Da diese Phase ausschließlich aus Textdaten bestand, wurde nur der Decoder aktualisiert.
Die Evaluierung von Apriel-1.5-15B-Thinker erfolgte anhand einer Kombination aus etablierten Benchmarks für Text- und Bildfähigkeiten, um eine umfassende und objektive Leistungsbeurteilung zu gewährleisten.
Für die Textevaluierung wurde der Artificial Analysis Intelligence Index herangezogen. Dieser Index ist eine unabhängige Metrik, die die allgemeine Intelligenz großer Sprachmodelle (LLMs) misst. Er aggregiert Ergebnisse aus zehn heterogenen Benchmarks, die jeweils eine spezifische Dimension der Modellfähigkeit ansprechen:
Die Normalisierung über Domänen, Schwierigkeitsgrade und Inter-Benchmark-Varianz ermöglicht eine ganzheitliche Messung der Intelligenz. Interne Evaluierungen zeigten ähnliche Metriken wie die von Artificial Analysis gemeldeten Ergebnisse.
Die visuellen Fähigkeiten wurden mithilfe des VLMEvalKit-Toolkits bewertet, das Datenladevorgänge, Prompting, Nachbearbeitung und Bewertung für reproduzierbare Vergleiche standardisiert. Die Benchmark-Suite umfasste folgende Bereiche:
Bei jedem Datensatz wurden offizielle oder Community-Standardprotokolle des VLMEvalKit befolgt und konsistente Prompts und Inferenz-Einstellungen verwendet, um faire Vergleiche zu gewährleisten.
Apriel-1.5-15B-Thinker erzielte einen Wert von 52 im Artificial Analysis Intelligence Index. Damit übertrifft es größere Open-Weight-Systeme wie Llama Nemotron Super 49B v1.5 (45) und gpt-oss-20B (43) und liegt gleichauf mit Modellen wie DeepSeek-R1-0528 und Gemini-2.5-Flash. Die aggregierten Ergebnisse zeigen eine starke mathematische Schlussfolgerungsfähigkeit (87 % bei AIME2025), robustes Instruktionsfolgen (62 % bei IF-Bench) und domänenspezifische Problemlösungsfähigkeiten (68 % bei τ²-Bench Telecom). Die Leistung bei TerminalBench-Hard (10 %) ist vergleichbar mit größeren proprietären Systemen wie GPT-4.1 und Gemini 2.5 Flash (beide 13 %) und übertrifft Open-Source-Modelle ähnlicher Größe.
Die Analyse der Leistung im Verhältnis zur Modellgröße zeigt, dass Apriel-1.5-15B-Thinker im "attraktivsten Quadranten" liegt, der moderate Skalierung mit überproportional hoher Leistung kombiniert. Dies unterstreicht das vorteilhafte Kosten-Intelligenz-Verhältnis des Modells.
Bei den Vision-Benchmarks erreichte Apriel-1.5-15B-Thinker einen Durchschnittswert von 64,7 % über die gesamte Suite. Das Modell übertrifft die meisten vergleichbar großen und sogar größeren Open-Weight Vision-Language-Modelle wie Kimi-VL-2506 und Qwen-2.5-VL-3B-Instruct. Es liegt nur etwa 5 Punkte hinter größeren Modellen wie Gemini-2.5-Flash und Claude Sonnet-3.7. Insbesondere zeigt es starke Ergebnisse bei dokumentenzentrierten und Diagrammverständnis-Benchmarks (z.B. CharXiv 88,20 % für deskriptive Aufgaben, AI2D 82,87 %) und solide Werte bei visuellen mathematischen Aufgaben (MathVista 75,5 %). Die Leistung ist tendenziell stärker bei Aufgaben, die visuelle Eingaben mit erheblichen textuellen Schlussfolgerungskomponenten kombinieren, während bei rein visuellen Aufgaben (z.B. MMMU-PRO Vision 48,21 %) noch Verbesserungspotenzial besteht. Dies deutet auf eine Lücke zwischen oberflächlichem Dokumentenverständnis und tieferem kontextuellem Schlussfolgern hin.
Die Entwicklung des Apriel-1.5-15B-Thinker-Modells demonstriert, dass ein Modell mit 15 Milliarden Parametern ein hohes Niveau an Schlussfolgerungsfähigkeiten erreichen kann, indem es Datenqualität und eine sorgfältig strukturierte "Mid-Training"-Pipeline priorisiert. Dieser datenzentrierte Ansatz, bestehend aus gestuftem kontinuierlichem Vortraining (CPT) und hochwertigem Supervised Fine-Tuning (SFT) ohne den Einsatz von Reinforcement Learning oder Präferenzoptimierung, führt zu messbaren Leistungssteigerungen und wettbewerbsfähigen Ergebnissen bei multimodalen Benchmarks.
Ein entscheidender Vorteil des Modells ist seine Fähigkeit, auf einer einzigen GPU zu operieren. Dies ermöglicht ein günstiges Leistungs-Effizienz-Verhältnis und macht fortschrittliche Schlussfolgerungsfähigkeiten für Organisationen mit begrenzter Recheninfrastruktur zugänglich. Die Ergebnisse von Apriel-1.5-15B-Thinker widerlegen die Annahme, dass Spitzenergebnisse zwingend massive Skalierung und kostspielige RL-Pipelines erfordern. Stattdessen unterstreichen sie die Bedeutung eines strategischen Mid-Training-Designs, effizienter Architekturskalierung und eines kontinuierlichen Fokus auf hochwertige, zielgerichtete Daten.
Obwohl sich die aktuelle Arbeit hauptsächlich auf textbasiertes Schlussfolgern konzentrierte, bieten die multimodalen Ergebnisse des Modells eine solide Grundlage für zukünftige Entwicklungen. Die nächsten Schritte werden darauf abzielen, die multimodalen Fähigkeiten umfassender zu erweitern und die agentischen Fähigkeiten zu stärken, um interaktive Workflows zu unterstützen, gegebenenfalls mit gezielten Alignment-Techniken. Die zukünftige Entwicklung wird weiterhin von den hier demonstrierten Kernprinzipien geleitet sein: strategisches Mid-Training-Design, effiziente Architekturskalierung und ein anhaltender Fokus auf hochwertige, zielgerichtete Daten.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen