Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Landschaft der lokalen KI-Inferenz erlebt einen bedeutenden Fortschritt: Die populäre Open-Source-Bibliothek llama.cpp hat die Unterstützung für Multi-Token Prediction (MTP) für die Qwen3.6-Modellfamilie implementiert. Diese Entwicklung stellt einen wichtigen Meilenstein dar, da sie die Leistung von Large Language Models (LLMs) auf handelsüblicher Hardware erheblich steigert und somit die Zugänglichkeit und Effizienz lokaler KI-Anwendungen verbessert.
Die Multi-Token Prediction (MTP) ist eine fortschrittliche Technik innerhalb der spekulativen Dekodierung, die darauf abzielt, die inhärent sequentielle Natur der Token-Generierung in LLMs zu überwinden. Traditionelle LLMs erzeugen Tokens autoregressiv, das heißt, sie generieren ein Token nach dem anderen und nutzen dieses als Eingabe für die Vorhersage des nächsten. Dieser Prozess ist rechenintensiv und kann zu Engpässen führen, insbesondere wenn die Modelle auf weniger leistungsstarker Hardware ausgeführt werden.
Im Gegensatz dazu ermöglicht MTP einem Modell, mehrere Tokens in einem einzigen Durchlauf vorherzusagen. Diese Vorhersagen dienen als "Entwurf" (Draft), der dann parallel vom Hauptmodell überprüft wird. Stimmt das Hauptmodell den Entwürfen zu, werden alle akzeptierten Tokens in einem Schritt übernommen, wodurch die Rate der Token-Generierung (Tokens pro Sekunde, t/s) erheblich ansteigt. Die Qwen-Modelle, insbesondere die Qwen3.6-Familie, wurden mit einem integrierten MTP-Head trainiert, was die Nutzung dieser Technik besonders effizient macht, da kein separates Draft-Modell erforderlich ist.
Die Integration von MTP in llama.cpp führt zu substanziellen Leistungsverbesserungen. Berichte aus der Community zeigen, dass die Token-Generierungsrate um mehr als das Doppelte gesteigert werden kann. Beispielsweise konnten Nutzer auf einer RTX 3090 eine Steigerung von 22.97 Tokens/Sekunde auf 42.45 Tokens/Sekunde beobachten, während auf einer RTX 4070 eine Erhöhung von etwa 51 Tokens/Sekunde auf 65-75 Tokens/Sekunde erzielt wurde. Diese Beschleunigung ist besonders relevant für Anwendungen, die eine schnelle und flüssige Interaktion mit LLMs erfordern, wie etwa Agenten-Workflows, Code-Generierung oder komplexe Analysen.
Die Effizienz von MTP hängt maßgeblich von der Akzeptanzrate der vorgeschlagenen Draft-Tokens ab. Eine hohe Akzeptanzrate, typischerweise über 70%, ist entscheidend für den Geschwindigkeitsvorteil. Die optimale Anzahl der spekulativen Draft-Tokens (--spec-draft-n-max) variiert je nach Hardware und Modell, wobei Werte zwischen 2 und 4 oft als Sweet Spot identifiziert werden, um eine Balance zwischen Geschwindigkeit und Akzeptanzrate zu finden.
Trotz der signifikanten Vorteile gibt es bei der MTP-Implementierung auch Herausforderungen, die es zu beachten gilt:
Entwickler arbeiten kontinuierlich an der Verbesserung dieser Aspekte. Beispielsweise wurde die Unterstützung für MTP mit visuellen Eingaben (Multimodalität) in der Hauptversion vollständig integriert, was MTP für agentische Vision-Workflows nutzbar macht. Auch die Kombination von MTP mit anderen spekulativen Dekodierungsmethoden wie N-Gram-Modellen wird erforscht, um weitere Geschwindigkeitssteigerungen zu erzielen, insbesondere bei der Generierung von sich wiederholendem Text wie Code.
Die Integration von MTP in llama.cpp ist ein entscheidender Schritt für das lokale KI-Ökosystem. Sie ermöglicht es Anwendern und Unternehmen, leistungsstarke LLMs direkt auf ihrer eigenen Hardware auszuführen, ohne auf Cloud-Dienste angewiesen zu sein. Dies fördert nicht nur die Datenhoheit und den Datenschutz, sondern reduziert auch Betriebskosten und Latenzzeiten. Für B2B-Kunden von Mindverse bedeutet dies die Möglichkeit, KI-gestützte Anwendungen mit höherer Effizienz und Skalierbarkeit in ihre bestehenden Infrastrukturen zu integrieren. Die durch MTP erzielten Leistungssteigerungen machen lokale Inferenzlösungen attraktiver und eröffnen neue Anwendungsfelder für KI auf Edge-Geräten und in datensensiblen Umgebungen.
Die fortlaufende Entwicklung und Optimierung von llama.cpp, unterstützt durch Beiträge wie die von Aman Gupta und der gesamten Open-Source-Community, unterstreicht das Engagement, fortschrittliche KI-Technologien für jedermann zugänglich zu machen und die Grenzen des Machbaren auf lokaler Hardware kontinuierlich zu erweitern.
Bibliography: - am17an. (2026, May 4). llama + spec: MTP Support · Pull Request #22673 · ggml-org/llama.cpp. GitHub. Retrieved from https://github.com/ggml-org/llama.cpp/pull/22673 - AMSELLEM, A. (2026, May 5). Qwen3.6-27B on upstream llama.cpp: +123% free with MTP, zero fork to maintain | airelien.dev. airelien.dev. Retrieved from https://airelien.dev/en/posts/qwen36-mtp-llamacpp-blackwell/ - Chauhan, K. (2026, May 12). Running Qwen3.6-35B-A3B MTP locally on 12GB VRAM. carteakey.dev. Retrieved from https://carteakey.dev/blog/running-qwen3-6-mtp-locally/ - ggerganov. (2026, May 18). Post by @ggerganov. X. Retrieved from https://x.com/ggerganov/status/2056391115469689330 - hhamud. (2026, May 13). Qwen3.6-35B-A3B self-MTP is much slower than baseline on Apple Metal despite high acceptance · Issue #23011 · ggml-org/llama.cpp. GitHub. Retrieved from https://github.com/ggml-org/llama.cpp/issues/23011 - Indras-Mirror. (2026, May 7). Indras-Mirror/llama.cpp-mtp. GitHub. Retrieved from https://github.com/Indras-Mirror/llama.cpp-mtp - itigges22. (2026, March 17). feat: MTP support for dense Qwen 3.5 with FastMTP vocabulary trimming · Pull Request #20700 · ggml-org/llama.cpp. GitHub. Retrieved from https://github.com/ggml-org/llama.cpp/pull/20700 - jesseposner. (2026, March 13). gguf: include MTP tensors for Qwen3-Next and Qwen3.5 models · Pull Request #20533 · ggml-org/llama.cpp. GitHub. Retrieved from https://github.com/ggml-org/llama.cpp/pull/20533 - localweights. (2026, May 6). Feat/qwen3moe mtp · Pull Request #22758 · ggml-org/llama.cpp. GitHub. Retrieved from https://github.com/ggml-org/llama.cpp/pull/22758 - MTP support is being addedto llama.cpp, at least for the Qwen models ( https://g... | Hacker News. (n.d.). Hacker News. Retrieved from https://news.ycombinator.com/item?id=48025248 - The Coders Blog. (2026, May 6). 2.5x Faster LLM Inference: Qwen 3.6 27B Achieves Breakthrough with MTP | The Coders Blog | Home. The Coders Blog. Retrieved from https://thecodersblog.com/faster-llm-inference-with-qwen-3-6-27b-and-mtp-2026/Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen