Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Beobachtung, dass größere Modelle eine bessere Leistung erbringen, gehört zu den konsistentesten Erkenntnissen in der KI-Forschung. Eine Verdoppelung der Parameter, der Trainingsdaten oder der Rechenleistung führt dazu, dass der Vorhersagefehler eines Sprachmodells einem Potenzgesetz folgt. Diese sogenannten "Neural Scaling Laws" treiben die Entwicklung immer größerer Systeme voran. Die genaue Ursache dieser Gesetze war jedoch bislang nicht vollständig geklärt.
Eine auf der NeurIPS 2025 von Yizhou Liu, Ziming Liu und Jeff Gore vom Massachusetts Institute of Technology (MIT) vorgestellte Studie führt dieses Phänomen auf eine geometrische Eigenschaft zurück, die in den Modellen selbst angelegt ist: die Superposition.
Sprachmodelle müssen Zehntausende von Tokens und noch abstraktere Bedeutungen in einen internen Raum einpassen, der nur wenige Tausend Dimensionen besitzt. Theoretisch kann ein dreidimensionaler Raum nur drei Konzepte ohne Interferenz aufnehmen. Große Sprachmodelle (LLMs) umgehen diese Einschränkung, indem sie viele Konzepte gleichzeitig in denselben Dimensionen speichern. Die daraus resultierenden Vektoren überlappen sich dabei geringfügig. Dieses Komprimieren mehrerer Bedeutungen in einen begrenzten Raum bezeichnen Forschende als Superposition.
Bisher gingen viele Erklärungsansätze davon aus, dass nur die häufigsten Konzepte sauber repräsentiert werden, während der Rest verloren geht (sogenannte "schwache Superposition"). Das Team des MIT konnte jedoch mithilfe eines vereinfachten Modells von Anthropic zeigen, dass diese Annahme nicht der Funktionsweise realer LLMs entspricht.
Die Forschenden entwickelten ein stark vereinfachtes KI-Modell, dessen Trainingsparameter so angepasst werden konnten, dass sie den Grad der Überlappung gespeicherter Konzepte steuerten. Dies ermöglichte den Vergleich zweier extremer Szenarien:
Im Fall der schwachen Superposition speichert das Modell nur die häufigsten Konzepte klar und ignoriert die übrigen. Der Vorhersagefehler resultiert hier hauptsächlich aus den seltenen Konzepten, die nicht berücksichtigt werden. Ob die Leistung dabei einem Potenzgesetz folgt, hängt davon ab, wie die Konzepte in den Trainingsdaten verteilt sind. Nur wenn diese Verteilung selbst einem Potenzgesetz folgt, zeigt auch der Fehler ein solches Verhalten. Die Studie bezeichnet dies als "Power Law In, Power Law Out".
Im Gegensatz dazu speichert das Modell in der starken Superposition alle Konzepte gleichzeitig, indem es ihre Vektoren leicht überlappen lässt. Der Fehler entsteht hier nicht mehr durch fehlende Konzepte, sondern durch das Rauschen, das durch diese Überlappungen verursacht wird. In diesem Regime zeigt sich ein robustes Muster: Eine Verdoppelung der Modellbreite halbiert den Fehler annähernd, was durch eine einfache geometrische Beziehung (1/m, wobei m die Breite des Modells ist) vorhergesagt wird. Die Verteilung der Konzepte in den Daten spielt dabei kaum noch eine Rolle.
Um zu überprüfen, welches Regime auf reale Systeme zutrifft, analysierte das Team die Ausgabeschichten von Open-Source-Modellen wie OPT, GPT-2, Qwen2.5 und Pythia, deren Parameteranzahl von etwa 100 Millionen bis 70 Milliarden reichte. Das Ergebnis war eindeutig: Alle Tokens sind im Modell repräsentiert, ihre Vektoren überlappen sich, und die Stärke dieser Überlappungen nimmt genau im vorhergesagten Verhältnis von 1/m ab. Sprachmodelle operieren demnach im Regime der starken Superposition.
Der gemessene Skalierungsexponent stimmte ebenfalls überein und lag bei 0,91, nahe am theoretischen Wert von 1. Daten von Deepminds Chinchilla-Modell ergaben einen nahezu identischen Wert von 0,88. Nach Ansicht der Forschenden ergeben sich diese Skalierungsgesetze direkt aus der Art und Weise, wie Sprachmodelle Bedeutungen geometrisch innerhalb ihrer Repräsentationen organisieren.
Die Arbeit liefert konkrete Antworten auf zwei offene Fragen in der KI-Forschung.
Zum einen stellt sich die Frage, ob die Skalierung irgendwann an ihre Grenzen stößt. Laut den Forschenden ist dies der Fall, sobald die Breite eines Modells der Größe seines Vokabulars entspricht. An diesem Punkt gibt es ausreichend Platz, um jedes Token ohne Überlappung zu repräsentieren, und der durch beengte Repräsentationen verursachte Fehler verschwindet. Das Potenzgesetz bricht an dieser Grenze zusammen.
Zum anderen wird die Frage beleuchtet, ob Skalierungsgesetze beschleunigt werden können, um mehr Leistung aus jedem zusätzlichen Parameter zu gewinnen. Für natürliche Sprache ist dies wahrscheinlich nicht der Fall, da die Wortfrequenzverteilungen relativ flach sind. Für spezialisierte Anwendungen, bei denen relevante Konzepte sehr ungleichmäßig verteilt sind, könnten jedoch steilere Skalierungseffekte möglich sein.
Diese Erkenntnisse haben auch Implikationen für das Design von Architekturen: Modelle, die die Superposition aktiv fördern, sollten bei gleicher Größe eine bessere Leistung erbringen. Ein Beispiel hierfür ist Nvidias nGPT, das interne Vektoren auf eine Einheitskugel zwingt und sie dadurch dichter packt.
Es gibt jedoch einen Vorbehalt: Je mehr Konzepte sich überlappen, desto schwieriger wird es, die genauen Vorgänge im Modell nachzuvollziehen. Dies stellt eine Herausforderung für die mechanistische Interpretierbarkeit und damit auch für die KI-Sicherheitsforschung dar.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen