Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Welt der Large Language Models (LLMs) entwickelt sich rasant weiter, und mit ihr wächst der Bedarf an effizienteren Methoden für die lokale Ausführung dieser komplexen Modelle. Eine jüngste Entwicklung in der llama.cpp-Bibliothek, die Multi-Token Prediction (MTP)-Unterstützung, verspricht eine signifikante Beschleunigung der Inferenzgeschwindigkeit und macht lokale Modelle zu praktikableren Werkzeugen für den täglichen Gebrauch.
MTP ist eine Form des spekulativen Decodings, die darauf abzielt, die inhärente Latenz bei der Token-Generierung von LLMs zu reduzieren. Traditionell generieren LLMs Token sequenziell, was bedeutet, dass für jedes neue Token ein vollständiger Vorwärtsdurchlauf des Modells erforderlich ist. Dieser Prozess ist oft durch die Speicherbandbreite begrenzt, da das Modell bei jedem Schritt Milliarden von Parametern aus dem VRAM in die Recheneinheiten verschieben muss.
MTP umgeht diese Beschränkung, indem das Modell darauf trainiert wird, mehrere zukünftige Token in einem einzigen Durchlauf vorherzusagen. Diese Vorhersagen werden dann parallel vom Hauptmodell verifiziert. Stimmt das Hauptmodell mit den Entwurfstoken überein, wird die gesamte Sequenz in einem einzigen Rechenschritt akzeptiert, was die Ausgabe mehrerer Token zum Rechenpreis eines einzelnen ermöglicht. Der wesentliche Unterschied zu anderen spekulativen Decoding-Methoden liegt darin, dass der "MTP-Head" direkt in das Hauptmodell integriert ist, wodurch kein separates, kleineres Entwurfsmodell benötigt wird. Dies vereinfacht die Einrichtung erheblich.
Die Einführung der MTP-Unterstützung in llama.cpp durch einen Pull Request (PR #22673) hat die Performance von Modellen wie Qwen3.6-27B drastisch verbessert. Berichte zeigen, dass die Generierungsgeschwindigkeit bei Modellen wie Qwen3.6-27B auf einer A10G-GPU von 25 Token/Sekunde auf 45 Token/Sekunde gesteigert werden konnte, was einer Erhöhung von 78% entspricht.
Die Aktivierung von MTP erfordert in der Regel lediglich zwei zusätzliche Flags beim Start des llama-servers:
--spec-type draft-mtp --spec-draft-n-max N
Dabei steht N für die maximale Anzahl der spekulativ generierten Entwurfstoken. Empfehlungen legen nahe, dass ein Wert von 2 oder 3 oft das beste Gleichgewicht zwischen Akzeptanzrate und Geschwindigkeit bietet. Eine zu hohe Anzahl kann die Akzeptanzrate senken und den Durchsatz aufgrund des zusätzlichen Rechenaufwands für die Verifizierung unbrauchbarer Token sogar reduzieren.
Trotz der vielversprechenden Fortschritte sind bei der Nutzung von MTP einige Aspekte zu beachten:
--spec-draft-n-max kann je nach Modell, Hardware und Anwendungsfall variieren. Experimente sind erforderlich, um die beste Balance zu finden.Die MTP-Unterstützung ist ein aktives Forschungs- und Entwicklungsfeld. Es wird erwartet, dass weitere Optimierungen die Leistung und Stabilität verbessern werden. Dazu gehören die bessere Kompatibilität mit anderen spekulativen Decoding-Methoden wie N-Gram-Modellen, die Verfeinerung der Speicherverwaltung und die Erweiterung der Unterstützung auf weitere Modelle. Die kontinuierliche Integration von Verbesserungen in die Hauptzweige von Projekten wie llama.cpp ist entscheidend für die breite Akzeptanz und Nutzbarkeit dieser Technologien.
Für Unternehmen im B2B-Bereich, die auf effiziente und leistungsstarke lokale KI-Lösungen angewiesen sind, bietet die MTP-Unterstützung in llama.cpp eine wichtige Möglichkeit zur Kostenreduzierung und Beschleunigung von Entwicklungsprozessen. Die Fähigkeit, hochwertige LLMs auf Standard-Hardware auszuführen, eröffnet neue Anwendungsfelder und ermöglicht eine flexiblere Implementierung von KI-Funktionen.
Die MTP-Unterstützung in llama.cpp stellt einen bedeutenden Fortschritt für die lokale Ausführung von LLMs dar. Sie bietet eine substanzielle Leistungssteigerung und vereinfacht den Einsatz spekulativer Decoding-Techniken. Während die Technologie noch in der Entwicklung ist und einige Herausforderungen bestehen bleiben, ist ihr Potenzial, LLMs auf Consumer-Hardware zu "Daily Drivers" zu machen, ein vielversprechendes Signal für die Zukunft der dezentralen KI-Anwendungen.
Für detaillierte Informationen und aktuelle Entwicklungen wird empfohlen, die offiziellen GitHub-Repositories und Diskussionsforen von llama.cpp zu verfolgen.
Bibliography: - am17an. (2026, May 4). llama + spec: MTP Support · Pull Request #22673 · ggml-org/llama.cpp. GitHub. Retrieved from https://github.com/ggml-org/llama.cpp/pull/22673 - am17an. (2026, May 17). MTP+llama.cpp: a look at Qwen3.6-27B - DGX Spark / GB10. NVIDIA Developer Forums. Retrieved from https://forums.developer.nvidia.com/t/mtp-llama-cpp-a-look-at-qwen3-6-27b/370298/20 - Amsellem, A. (2026, May 5). Qwen3.6-27B on upstream llama.cpp: +123% free with MTP, zero fork to maintain | airelien.dev. airelien.dev. Retrieved from https://airelien.dev/en/posts/qwen36-mtp-llamacpp-blackwell/ - Amsellem, A. (2026, May 5). Qwen3.6-27B MTP via llama.cpp PR #22673 sur Blackwell consumer — 78 t/s sans aucun fork ni patch | airelien.dev. airelien.dev. Retrieved from https://airelien.dev/posts/qwen36-mtp-llamacpp-blackwell/ - Bartlett, M. (2026, May 6). DFlash vs MTP on RTX 3090: I Tested Both Locally | InsiderLLM. InsiderLLM. Retrieved from https://insiderllm.com/guides/dflash-vs-mtp-rtx-3090-head-to-head/ - Chauhan, K. (2026, May 12). Running Qwen3.6-35B-A3B MTP locally on 12GB VRAM. carteakey.dev. Retrieved from https://carteakey.dev/blog/running-qwen3-6-mtp-locally/ - frozename. (2026, May 11). server: force non-mmap load for MTP head to avoid Metal full-model duplicate · Pull Request #22941 · ggml-org/llama.cpp. GitHub. Retrieved from https://github.com/ggml-org/llama.cpp/pull/22941 - ggml-org. (2026, April 28). Speculative decoding for Qwen3.6-27B · ggml-org llama.cpp - GitHub. GitHub. Retrieved from https://github.com/ggml-org/llama.cpp/discussions/22473 - Hack-Log. (2026, May 4). Llama.cppがMTPに対応。Qwen3.6の推論が1.85倍速になる設定方法|Hack-Log. note.com. Retrieved from https://note.com/hacklog_stealth/n/n43be4a291d09 - leon7609. (2026, May 11). server: adaptive low-yield MTP speculation fallback · Pull Request #22931 · ggml-org/llama.cpp. GitHub. Retrieved from https://github.com/ggml-org/llama.cpp/pull/22931 - @victormustar. (2026, May 18). llama.cpp with MTP support makes local models fast enough to use as daily drivers 🚀 Qwen3.6-27B dense generation (on A10G): From 25 tok/s → 45 tok/s (+78%). Two flags on llama-server: --spec-type draft-mtp --spec-draft-n-max 2. X. Retrieved from https://x.com/victormustar/status/2056456757786869793Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen