Für Teams, Einzelnutzer, Kanzleien und Transkription – derselbe Mindverse Look, klar aufgeteilt nach Anwendungsfall.
für Teams und Unternehmen
Die Plattform für Unternehmen, die eigene KI-Workflows, Wissensdatenbanken und Assistenten produktiv einsetzen möchten.
für Einzelnutzer und Creator
Der einfachste Einstieg in das Mindverse-Ökosystem für Content, Recherche, Bilder, Audio und produktives Arbeiten.
für Juristen und Kanzleien
Die spezialisierte KI-Lösung für juristische Recherche, Vertragsarbeit und kanzleispezifische Workflows.
für Audio, Meetings und Transkription
Schnelle KI-Transkription für Audiodateien und Meetings – ideal zum sofortigen Start oder für regelmäßige Nutzung.

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Forschung und Entwicklung im Bereich der Künstlichen Intelligenz schreitet mit grossen Schritten voran, insbesondere bei grossen Sprachmodellen (LLMs). Eine jüngste Veröffentlichung von AllenAI über die sogenannten OlmPool-Architekturmodelle auf Hugging Face beleuchtet einen spezifischen Aspekt, der für die B2B-Zielgruppe von grosser Relevanz ist: den Einfluss kleiner architektonischer Entscheidungen auf die Fähigkeit von Sprachmodellen, lange Kontexte effizient zu verarbeiten. Diese Modelle mit 7 bis 8 Milliarden Parametern sind entscheidend für Anwendungen, die ein tiefes Verständnis und die Verarbeitung umfangreicher Textmengen erfordern.
Die von AllenAI durchgeführte Studie, dokumentiert unter dem Titel "Cracks in the Foundation: Seemingly Minor Architectural Choices Impact Long Context Extension", legt dar, dass architektonische Variationen innerhalb des dichten Transformer-Paradigmas weitreichendere Auswirkungen auf die Genauigkeit haben können, als bislang angenommen. Insbesondere im Kontext der Verarbeitung langer Sequenzen zeigen sich kumulative negative Effekte durch eine Kombination von vier spezifischen architektonischen Entscheidungen. Diese Entscheidungen sind in mindestens einer der Modellfamilien OLMo, Llama und Qwen vorhanden.
Die Untersuchung macht deutlich, dass jede dieser Entscheidungen für sich genommen nur geringe Auswirkungen auf die Leistung bei langen Kontexten haben mag. Werden jedoch drei oder mehr dieser Entscheidungen kombiniert, kann die Leistung um bis zu 47 % sinken. Diese Unterschiede sind anhand von Kurzkontext-Verlusten oder Validierungsdatensätzen nicht erkennbar. Die Forscher demonstrieren dies durch kontrollierte Ablationen, bei denen Daten, Tokenizer und die Erweiterungsstrategie konstant gehalten wurden, während Normalisierung, Grouped-Query Attention (GQA), die Länge des Vortrainingskontextes und Sliding Window Attention variiert wurden.
Die Studie identifiziert vier Hauptmerkmale, die in den OlmPool-Modellen abgetestet wurden:
Ein zentrales Ergebnis der Studie ist, dass Kurzkontext-Metriken keine zuverlässigen Indikatoren für die Leistung bei langen Kontexten sind. Standard-Vortrainingsmetriken wie der Trainingsverlust, die Validierungs-Perplexität oder Ergebnisse aus Kurzkontext-Benchmarks können nicht vorhersagen, welche Modelle bei Kontextlängen von 32K oder 64K gut abschneiden werden. Selbst HELMET-Scores bei 8K, der kürzesten Kontextaufteilung desselben Benchmarks, konnten keine zweistelligen Schwankungen in der Post-Erweiterungsleistung vorhersagen.
Dies hat weitreichende Implikationen, da architektonische Entscheidungen oft früh im Entwicklungszyklus getroffen werden, lange bevor die Auswirkungen auf das Langkontext-Verhalten direkt beobachtet werden können. Die Forscher schlagen vor, dass Experimente zur Kontextverlängerung bereits früh im Vortraining durchgeführt werden sollten, um potenzielle Probleme kostengünstiger zu identifizieren.
Die Studie zeigt, dass die negativen Auswirkungen der genannten architektonischen Entscheidungen kumulativ sind. Während einzelne Merkmale, mit Ausnahme der QK-Norm, nur geringe individuelle Effekte haben, können sie in Kombination zu einem dramatischen Leistungsabfall führen. Beispielsweise führt das Hinzufügen von Sliding Window Attention zu einem Modell, das bereits GQA verwendet, zu einem Leistungsabfall von durchschnittlich 9 Punkten auf HELMET.
Die Forschungsergebnisse legen nahe, dass die Architektur von Llama 3 besonders gut für lange Kontexte geeignet ist. Auch wenn die Vortrainingsdaten von Llama 3 nicht öffentlich zugänglich sind, deuten die Ergebnisse darauf hin, dass die leichte Erweiterbarkeit von Llama 3 primär auf architektonische Faktoren zurückzuführen ist. Dies impliziert, dass für Llama 3 entwickelte Kontext-Erweiterungsstrategien möglicherweise nicht ohne Weiteres auf andere Architekturen übertragbar sind.
Zur weiteren Erklärung der Leistungsunterschiede analysierten die Forscher die Aufmerksamkeitsmuster der OlmPool-Modelle. Es wurde festgestellt, dass Modelle ohne QK-Norm stärkere "Attention Sinks" entwickeln. Dabei handelt es sich um Positionen früh im Eingabekontext, die konsistent einen erheblichen Anteil der Aufmerksamkeit erhalten, selbst wenn sie für die aktuelle Vorhersage nicht relevant sind. Obwohl Attention Sinks oft als unerwünscht angesehen werden, korrelieren sie in den OlmPool-Modellen mit einer besseren Leistung bei langen Kontexten. Dies deutet darauf hin, dass Sinks eine Standardstrategie darstellen könnten, die von Transformatoren ohne QK-Norm erlernt wird, um die Informationsabfrage über lange Eingaben zu unterstützen.
Zusätzlich wurde die Fähigkeit der Modelle untersucht, spezifische Informationen aus langen Dokumenten abzurufen. Modelle mit QK-Norm zeigten eine geringere Aufmerksamkeit auf die Zielinformationen, was mit ihrer insgesamt schwächeren Langkontext-Leistung übereinstimmt.
AllenAI stellt alle 26 OlmPool-Modelle mit jeweils 38 Checkpoints zur Verfügung, die den gesamten Vortrainings- und Kontextverlängerungsprozess abdecken. Diese Ressource soll der Gemeinschaft dienen, um bessere Methoden zur Kontextverlängerung zu entwickeln und andere Phänomene im frühen Vortraining zu untersuchen. Jedes der untersuchten architektonischen Merkmale bietet in anderen Kontexten klare Vorteile – Stabilität für die Normalisierung, Effizienz für die Vortrainingskontextlänge sowie Inferenz-Effizienz für Sliding Window und GQA. Die Studie zeigt jedoch, dass die Kombination dieser Merkmale zu einer inakzeptablen Langkontext-Erweiterbarkeit führen kann, die mit Standard-Trainingssignalen nicht erkennbar ist.
Die Forschung von AllenAI liefert wertvolle Erkenntnisse für Unternehmen, die Sprachmodelle für komplexe Anwendungen einsetzen. Sie unterstreicht die Notwendigkeit einer sorgfältigen architektonischen Planung und die Bedeutung von frühzeitigen und spezifischen Tests zur Bewertung der Langkontext-Fähigkeiten von LLMs.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen