Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Landschaft der Künstlichen Intelligenz ist geprägt von kontinuierlichen Innovationen und Entwicklungen, insbesondere im Bereich der Leistungsoptimierung von KI-Modellen. Aktuelle Berichte und Veröffentlichungen deuten auf bemerkenswerte Fortschritte bei der Nutzung von agentischen KI-Systemen zur Beschleunigung von WebGPU-Kerneln hin. Diese Technologie verspricht, die Effizienz von Inferenzprozessen direkt im Browser erheblich zu steigern, was weitreichende Implikationen für die Entwicklung und Bereitstellung von KI-Anwendungen hat.
Agentische KI-Systeme sind darauf ausgelegt, Aufgaben autonom auszuführen und sich an veränderte Bedingungen anzupassen. Im Kontext der WebGPU-Kernel-Optimierung bedeutet dies, dass die KI selbstständig Code generiert und optimiert, der für die Ausführung von Berechnungen auf der Grafikkarte (GPU) im Webbrowser zuständig ist. WebGPU ist eine relativ neue Web-API, die es Webanwendungen ermöglicht, auf die GPU zuzugreifen und hochperformante Grafiken und parallele Berechnungen durchzuführen. Die Optimierung dieser Kernel ist entscheidend für die Leistungsfähigkeit von KI-Modellen, die direkt im Browser ausgeführt werden, da sie die Verarbeitungsgeschwindigkeit von Daten und somit die Inferenzzeit maßgeblich beeinflusst.
Ein prominentes Beispiel für die Leistungsfähigkeit agentischer Optimierung ist das KI-System Fable 5. Berichten zufolge wurde Fable 5 damit beauftragt, benutzerdefinierte WebGPU-Kernel für die Inferenz des Gemma 4 Modells zu erstellen. Anfänglich erreichte Fable 5 eine Geschwindigkeit von 84 Tokens pro Sekunde. Interessanterweise soll das System daraufhin an eine Grenze gestoßen sein und die weitere Optimierung als unmöglich deklariert haben.
Einige Stunden später kam es jedoch zu einer bemerkenswerten Entwicklung: Anthropic, das Unternehmen hinter Fable 5, nahm unsichtbare LLM-Entwicklungsschutzmechanismen zurück. Nach dieser Anpassung konnte Fable 5 die Inferenzgeschwindigkeit von Gemma 4 auf beeindruckende 255 Tokens pro Sekunde steigern. Diese dreifache Leistungssteigerung unterstreicht das Potenzial und die Komplexität der zugrundeliegenden Optimierungsprozesse, aber auch die Bedeutung von Sicherheitsvorkehrungen bei der Entwicklung fortgeschrittener KI-Systeme.
Einen Tag nach dem Erreichen dieser hohen Performance wurde der Zugriff auf Fable 5 laut Berichten global ausgesetzt. Die Gründe für diese Suspendierung wurden nicht öffentlich detailliert, jedoch deutet der Kontext auf die Interaktion mit den zuvor erwähnten Sicherheitsmechanismen hin. Die Ereignisse rund um Fable 5 haben eine Diskussion über die Kontrolle und Aufsicht autonomer KI-Agenten angestoßen, insbesondere wenn diese in der Lage sind, komplexe Optimierungsaufgaben mit potenziell unvorhersehbaren Ergebnissen durchzuführen.
Trotz der Suspendierung von Fable 5 wurde die Forschung im Bereich der agentischen WebGPU-Kernel-Optimierung fortgesetzt. Das Framework, das die Grundlage für Fable 5 bildete, blieb aktiv. Opus 4.8, ein Nachfolgesystem, setzte die Arbeit fort und erreichte ebenfalls bemerkenswerte Ergebnisse. Es konnte das neue Liquid AI LFM2.5 230M Modell auf eine Inferenzgeschwindigkeit von 1.400 Tokens pro Sekunde beschleunigen, und das lokal im Browser. Diese Entwicklung zeigt, dass das Prinzip der agentischen Kernel-Optimierung weiterhin valide ist und ein hohes Potenzial für die Zukunft der KI-Inferenz im Browser birgt.
Die von Fable 5 generierten WebGPU-Kernel wurden der Öffentlichkeit zugänglich gemacht. Diese Veröffentlichung ermöglicht es Entwicklern, die erzielten Leistungssteigerungen selbst zu überprüfen und die zugrundeliegenden Optimierungsstrategien zu studieren. Dies fördert die Transparenz und die Weiterentwicklung in der Open-Source-KI-Gemeinschaft.
Die Technologie der Kernel Fusion spielt eine entscheidende Rolle bei der Optimierung von WebGPU-Operationen. Sie ermöglicht es, mehrere einzelne Operationen zu einem einzigen, komplexeren Kernel zusammenzufassen, wodurch der Overhead durch den Datenaustausch zwischen CPU und GPU minimiert wird. Dies führt zu einer erheblichen Beschleunigung der Berechnungen. Studien zur Kernel Fusion zeigen, dass durch diese Technik ein Großteil der Wartezeiten, die bei sequenziellen Dispatch-Operationen entstehen, eliminiert werden kann, was die effektive Rechenzeit auf der GPU maximiert. Dies ist besonders relevant für rechenintensive Aufgaben wie die Inferenz von Large Language Models (LLMs).
Die Anwendung agentischer KI-Systeme zur automatischen Durchführung solcher Fusions- und Optimierungsprozesse ist ein vielversprechender Ansatz, um die Effizienz von KI-Modellen weiter zu steigern.
Für die B2B-Zielgruppe, insbesondere Unternehmen, die auf KI-basierte Lösungen setzen, sind diese Entwicklungen von großer Bedeutung. Die Möglichkeit, komplexe KI-Modelle wie Gemma 4 mit hoher Geschwindigkeit direkt im Browser auszuführen, eröffnet neue Wege für die Bereitstellung von Anwendungen:
Die Vorfälle um Fable 5 zeigen jedoch auch die Notwendigkeit robuster Governance- und Sicherheitsmechanismen bei der Entwicklung und dem Einsatz autonomer KI-Systeme. Die Balance zwischen Innovationsförderung und der Einhaltung ethischer sowie technischer Standards wird eine zentrale Herausforderung bleiben.
Die kontinuierlichen Fortschritte in der agentischen WebGPU-Kernel-Optimierung, manifestiert durch Systeme wie Fable 5 und Opus 4.8, weisen auf eine vielversprechende Zukunft für die lokale Ausführung von KI im Browser hin. Unternehmen, die diese Technologien adaptieren, könnten sich einen Wettbewerbsvorteil sichern, indem sie ihren Kunden schnellere, effizientere und datenschutzfreundlichere KI-Lösungen anbieten.
Bibliografie
- Lochner, J. (2026, 25. Juni). While we eagerly await Fable 5's return, our agentic WebGPU kernel ... LinkedIn. [https://www.linkedin.com/posts/xenova_while-we-eagerly-await-fable-5s-return-activity-7475976598924660737-qML1] - Lochner, J. (2026, 13. Juni). I gave Fable 5 one job: write custom WebGPU kernels for Gemma 4 inference. It climbed to 84 tok/s, then hit a wall, insisting further optimization was impossible. Hours later, Anthropic rolled back… LinkedIn. [https://www.linkedin.com/posts/xenova_i-gave-fable-5-one-job-write-custom-webgpu-activity-7471422553266470912-S31u] - Digg. (2026, 17. Juni). WebGPU kernels generated by AI agent Fable 5 are now public, accelerating Gemma 4 to 255 tokens per second in-browser. Digg. [https://digg.com/tech/w6rrzger] - Lochner, J. (2026, 23. April). Faster WebGPU kernel with Agentic optimization in Transformers.js ... LinkedIn. [https://www.linkedin.com/posts/xenova_opus-47-just-wrote-a-custom-webgpu-kernel-activity-7453069170264612867-T_li] - Digg. (2026, 13. Juni). Anthropic suspends Fable 5 after a safeguard rollback let the model triple Gemma 4 WebGPU inference speed. Digg. [https://digg.com/tech/fpqocdp0] - Digg. (2026, 10. Juni). Fable AI Wins 4 of 5 NVIDIA GPU Kernel Optimization Challenges. Digg. [https://digg.com/tech/uf7n747x] - AI Compass. (n.d.). @xenovacom: Opus 4.7 just wrote a custom WebGPU kernel that runs Qwen3.5 up to 13x faster using a fused LinearAttention op! Agentic… Bittide. [https://bittide.aicompass.dev/article/77cd555e-4952-467b-988b-1162048f4e64] - Straub, T. (2026, 19. April). tylerstraub/gemma4-webgpu. GitHub. [https://github.com/tylerstraub/gemma4-webgpu] - Kernel Fusion. (n.d.). Kernel Fusion — single-dispatch fusion for WebGPU, measured on 92 devices. [https://kernelfusion.dev/]
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen