Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Fähigkeit großer Sprachmodelle (LLMs), komplexe Aufgaben zu lösen und kohärente Texte zu generieren, fasziniert die Fachwelt und die Öffentlichkeit gleichermaßen. Oft wird dabei der Eindruck erweckt, diese Modelle würden intern "denken" oder "überlegen", ähnlich menschlicher Kognition. Eine aktuelle Forschungsarbeit, die von Fahd Seddik und Fatemeh Fard von der University of British Columbia veröffentlicht wurde, stellt diese Annahme nun auf den Prüfstand. Die Studie, die im Rahmen der Mindverse News analysiert wird, formalisiert vier Axiome zur Bewertung latenter Gedankendarstellungen in LLMs und kommt zu dem Ergebnis, dass keines der untersuchten Open-Weight-Modelle diese Kriterien vollständig erfüllt.
Die Vorstellung, dass LLMs "in Stille denken", also interne, nicht explizit sichtbare Denkprozesse durchlaufen, hat in der Forschung und Entwicklung von KI-Modellen an Bedeutung gewonnen. Im Gegensatz zu "Chain-of-Thought" (CoT)-Prompts, bei denen Modelle ihre Denkwege Schritt für Schritt verbalisieren, bezieht sich das "stille Denken" auf interne, latente Repräsentationen, die das Modell zwischen Eingabe und Ausgabe generiert. Die zentrale Frage, die Seddik und Fard aufwerfen, ist, ob diese latenten Repräsentationen tatsächlich bedeutungsvolle Denkprozesse kodieren oder ob es sich lediglich um eine Art "glücklichen Umweg" handelt, der zum richtigen Ergebnis führt, ohne kausal mit einem echten Denkprozess verbunden zu sein.
Bisherige Evaluationsmethoden für LLMs konzentrierten sich oft auf die Genauigkeit der Ausgabe (Downstream-Benchmark-Scores). Diese Ansätze vermischen jedoch die Qualität der internen Repräsentation mit der allgemeinen Leistungsfähigkeit des Modells. Dadurch ist es schwierig zu beurteilen, ob Fehler auf die Repräsentation selbst oder auf die Art und Weise, wie das Modell diese verarbeitet, zurückzuführen sind. Es fehlte eine prinzipielle Definition dessen, was eine gültige Gedankendarstellung ausmacht, und eine intrinsische Bewertungsmethode, die unabhängig von externen Benchmarks funktioniert.
Um diese Lücke zu schließen, haben Seddik und Fard ein axiomatisch-evaluatives Framework entwickelt, das aus vier funktionalen Axiomen besteht. Diese Axiome sollen eine objektive und quantitative Messung der Qualität latenter Gedankendarstellungen ermöglichen. Für jedes Axiom wurde eine spezifische Messgröße definiert, die direkt auf der Repräsentation selbst berechnet wird, unabhängig von der nachgelagerten Genauigkeit der Modellantwort. Die vier Axiome sind:
Das Kausalitätsaxiom besagt, dass eine Gedankendarstellung kausal mit der Ausgabe des Modells verbunden sein muss. Das bedeutet, wenn die latente Repräsentation manipuliert oder entfernt wird, sollte sich dies direkt auf die generierte Antwort auswirken. Dies stellt sicher, dass die "Gedanken" nicht nur begleitend, sondern tatsächlich entscheidend für das Ergebnis sind.
Das Minimalitätsaxiom fordert, dass eine Gedankendarstellung nur die für die Aufgabe notwendigen Informationen enthalten sollte. Sie sollte nicht überflüssige oder irrelevante Daten kodieren. Eine minimale Repräsentation ist effizienter und deutet auf eine gezieltere Verarbeitung hin.
Die Separierbarkeit impliziert, dass unterschiedliche Gedankendarstellungen, die zu unterschiedlichen Aufgaben oder Schlussfolgerungen führen, auch voneinander unterscheidbar sein müssen. Das Modell sollte in der Lage sein, zwischen verschiedenen internen Zuständen, die unterschiedliche Denkprozesse repräsentieren, klar zu differenzieren.
Das Stabilitätsaxiom verlangt, dass eine Gedankendarstellung robust gegenüber kleineren irrelevanten Änderungen in der Eingabe sein sollte. Geringfügige Variationen im Prompt, die die Kernbedeutung nicht verändern, sollten nicht zu drastisch unterschiedlichen latenten Repräsentationen führen.
Die Forscher haben fünf verschiedene Open-Weight LLMs – Llama-3.1 8B, Llama-3.3 70B, DeepSeek-R1-Distill-Qwen-32B, Skywork-OR1-32B und GPT-OSS-20B – anhand dieser vier Axiome über 23 verschiedene Reasoning-Aufgaben (z.B. räumliches Denken, faktisches Q&A) auditiert. Das Ergebnis ist bemerkenswert: Keines der untersuchten Modelle erfüllte alle vier Axiome gleichzeitig.
Die Analyse zeigte, dass die latenten Repräsentationen zwar zuverlässig zwischen verschiedenen Aufgabentypen unterscheiden konnten. Dies deutet darauf hin, dass sie eine gewisse semantische Unterscheidungskraft besitzen. Allerdings konnten sie oft nicht zwischen zwei spezifischen Fragen innerhalb derselben Aufgabe differenzieren. Dies legt nahe, dass die latenten Repräsentationen möglicherweise nicht viel über die reine Eingabe-Einbettung hinaus kodieren. Anders ausgedrückt: Das Modell mag erkennen, dass es sich um eine "Rechenaufgabe" handelt, aber nicht die spezifischen Zahlen oder Operationen, die für die Lösung relevant sind, in einer kausal wirksamen Weise intern repräsentieren.
Diese Erkenntnisse sind von großer Bedeutung für die zukünftige Entwicklung und das Verständnis von LLMs. Sie deuten darauf hin, dass das, was wir als "Denken" in diesen Modellen wahrnehmen, möglicherweise eher eine ausgeklügelte Mustererkennung und -reproduktion ist, als ein tiefgreifender, kausal verankerter Denkprozess.
Für Unternehmen, die LLMs in ihren Geschäftsprozessen einsetzen oder dies planen, sind diese Ergebnisse von zentraler Bedeutung. Die Fähigkeit, die internen "Denkprozesse" eines LLM zu verstehen und zu auditieren, ist entscheidend für:
Die Forschung von Seddik und Fard fordert die Branche auf, über reine Leistungs-Benchmarks hinauszugehen und sich auf ein tieferes Verständnis der internen Funktionsweise von LLMs zu konzentrieren. Für Mindverse als KI-Partner bedeutet dies, weiterhin innovative Wege zu erforschen, um die Transparenz, Nachvollziehbarkeit und Robustheit von KI-generierten Inhalten zu gewährleisten. Das Ziel ist es, unseren Kunden nicht nur leistungsfähige, sondern auch vertrauenswürdige und auditierbare KI-Lösungen anzubieten.
Die Einführung dieser vier Axiome bietet einen wertvollen Rahmen, um die Qualität und die kausale Wirksamkeit latenter Gedankendarstellungen in LLMs zu bewerten. Obwohl die aktuellen Modelle die Kriterien noch nicht vollständig erfüllen, markiert diese Arbeit einen wichtigen Schritt in Richtung eines tieferen Verständnisses und einer präziseren Entwicklung von "denkenden" KI-Systemen.
Bibliography: Fard, F., & Seddik, F. (2026). Formalizing Latent Thoughts: Four Axioms of Thought Representation in LLMs. arXiv preprint arXiv:2606.27378. Seddik, F., & Fard, F. (n.d.). Formalizing Latent Thoughts. Fard Lab. Retrieved from https://fard-lab.github.io/formalize-thoughts/ AI Weekly. (2026, June 25). Audit finds no LLM satisfies all four thought-axiom tests. Retrieved from https://aiweekly.co/alerts/audit-finds-no-llm-satisfies-all-four-thought-axiom-tests Wang, W. (2026). LLM Reasoning Is Latent, Not the Chain of Thought. arXiv preprint arXiv:2604.15726. Sathyanarayanan, A., Nagarsekar, A., & Rathore, A. (2026). Bypassing the Rationale: Causal Auditing of Implicit Reasoning in Language Models. arXiv preprint arXiv:2602.03994. Young, R. J. (2026). Why Models Know But Don’t Say: Chain-of-Thought Faithfulness Divergence Between Thinking Tokens and Answers in Open-Weight Reasoning Models. arXiv preprint arXiv:2603.26410. Aswal, D., Palmeira Ferraz, T., Zhou, Y., & Peyrard, M. (2026). Observable Patterns Are Not Explanations: A Causal-Geometric Analysis of Latent Reasoning Models. arXiv preprint arXiv:2606.12689. Hao, Y., Chen, L., Emami, A., & Ho, J. (2026). Reasoning Traces Shape Outputs but Models Won’t Say So. Proceedings of the 64th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 42852-42878.Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen