Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die rapide Entwicklung von Large Language Models (LLMs) hat die künstliche Intelligenz in vielen Bereichen vorangetrieben. Diese Modelle sind jedoch mit erheblichen Hardware- und Rechenkosten verbunden, insbesondere während des Trainings. Aktuelle Forschung konzentriert sich daher auf die Entwicklung innovativer Optimierungsstrategien, die diese Herausforderungen adressieren, ohne die Leistungsfähigkeit der Modelle zu beeinträchtigen. Ein vielversprechender Ansatz ist die Manifold-Optimierung, die darauf abzielt, die inhärente geometrische Struktur der Modellparameter zu nutzen.
Herkömmliche Optimierer wie AdamW stützen sich auf diagonale Krümmungsschätzungen und vernachlässigen strukturelle Eigenschaften, während Muon eine globale Spektralnormalisierung anwendet, die Informationen über die Krümmung verlieren kann. Diese Limitationen führen zu Ineffizienzen, die den Trainingsprozess von LLMs verteuern und verlangsamen.
In einer aktuellen Studie wurde ein neuer Optimierer namens Mano vorgestellt, der die Manifold-Optimierung für das Training von LLMs neu interpretiert. Mano projiziert das Momentum der Modellparameter auf den Tangentenraum einer rotierenden schrägen Mannigfaltigkeit. Dieser innovative Ansatz zielt darauf ab, die Leistungslücke zwischen Manifold-Optimierung und modernen Optimierern zu schließen, die bisher aufgrund schlechter Leistung bei der Skalierung großer Modelle übersehen wurde.
Experimente mit LLaMA- und Qwen3-Modellen zeigen, dass Mano AdamW und Muon konsistent und signifikant übertrifft. Dies wird erreicht, indem die strukturellen Eigenschaften der Parameter berücksichtigt und die Optimierung auf einer speziell konstruierten Mannigfaltigkeit durchgeführt wird. Die Ergebnisse deuten auf eine erweiterte Pareto-Frontier in Bezug auf Raum- und Zeiteffizienz hin, was bedeutet, dass Mano bessere Leistung bei gleichzeitig geringerem Speicherverbrauch und geringerer Rechenkomplexität erzielt.
Neben der Optimierung des Trainingsprozesses ist die Komprimierung von LLMs ein weiterer wichtiger Forschungsbereich, um deren Einsatz in ressourcenbeschränkten Umgebungen zu ermöglichen. Das Manifold-Based Knowledge Alignment and Layer Merging Compression (MKA)-Framework ist ein solcher Ansatz, der Manifold-Lernen und Schichtzusammenführung kombiniert.
MKA nutzt die Redundanz in den späteren Schichten vortrainierter LLMs. Durch das Zusammenführen von Schichten mit hoher Eingabe-Ausgabe-Ähnlichkeit von hinten nach vorne kann die Modellleistung beibehalten und gleichzeitig die Modellgröße reduziert werden. Der Prozess umfasst folgende Schritte:
Umfassende Experimente mit verschiedenen LLMs wie Llama-2, Llama-3 und Mistral-7B auf Benchmark-Datensätzen wie MMLU, PIQA und HellaSwag zeigen, dass MKA erhebliche Kompressionsraten erzielt, ohne die Modellleistung wesentlich zu beeinträchtigen. Beispielsweise erreichte MKA auf dem MMLU-Datensatz mit Llama3-8B eine Kompressionsrate von 43,75 % bei einem Leistungsrückgang von nur 2,82 %.
Im Vergleich zu herkömmlichen Pruning-Methoden wie SparseGPT und ShortGPT übertrifft MKA diese in der Genauigkeit, insbesondere bei höheren Kompressionsraten. Wenn MKA mit Quantisierungstechniken wie SmoothQuant, GPTQ oder AWQ kombiniert wird, können noch höhere Kompressionsraten erzielt werden, wobei die Genauigkeit weiterhin signifikant besser ist als bei Pruning-Methoden mit Quantisierung.
Die Erkenntnisse aus der Forschung an Mano und MKA deuten darauf hin, dass geometrische Ansätze eine Schlüsselrolle bei der Bewältigung der Herausforderungen im Zusammenhang mit dem Training und der Bereitstellung großer Sprachmodelle spielen können. Die Nutzung der intrinsischen Geometrie von Modellparametern ermöglicht nicht nur effizientere Optimierungsprozesse, sondern auch effektivere Komprimierungstechniken, die für den breiteren Einsatz von LLMs in der Industrie von großer Bedeutung sind.
Die Fähigkeit, LLMs effizienter zu trainieren und zu komprimieren, kann die Entwicklung und den Einsatz von KI-Anwendungen beschleunigen und die Zugänglichkeit dieser leistungsstarken Technologien für Unternehmen jeder Größe verbessern. Dies ist besonders relevant für B2B-Anwendungen, bei denen Skalierbarkeit, Kosteneffizienz und Leistung entscheidende Faktoren sind.
Die Untersuchung verschiedener Ähnlichkeitsmaße, wie Cosinus-Ähnlichkeit, Mahalanobis-Distanz und Euklidische Distanz, im Kontext von MKA zeigte, dass diese unterschiedliche Verteilungsmuster aufweisen. Die NPIB-Metrik erwies sich als besonders effektiv, um die Wissensmuster zwischen den Schichten zu vergleichen und so optimale Merging-Entscheidungen zu treffen. Andere Maße zeigten inkonsistente Heatmap-Muster oder stimmten nicht mit den erwarteten Merging-Bereichen überein.
Die MKA-Methode zeigt auch Potenzial für die Anwendung auf andere Deep-Learning-Architekturen, einschließlich Mixture-of-Experts (MoE) und Mamba-Modelle. Erste Experimente deuten darauf hin, dass die Methode generalisierbar ist, obwohl die Ähnlichkeitsverteilungen bei diesen Modellen leicht von denen traditioneller LLMs abweichen können. Die weitere Forschung in diesem Bereich könnte die Anwendbarkeit von Manifold-basierten Optimierungen und Komprimierungen auf ein breiteres Spektrum von KI-Modellen erweitern.
Es ist wichtig zu beachten, dass die Qualität des Manifold-Lernprozesses stark von der Diversität und Repräsentativität der aus den Eingabedaten extrahierten Schichtaktivierungen abhängt. Die Auswahl der Stichprobengröße kann die Ergebnisse des Manifold-Lernens erheblich beeinflussen. Zukünftige Forschungen könnten sich auf die Optimierung dieser Aspekte konzentrieren, um die Robustheit und Anwendbarkeit der Methode weiter zu verbessern.
Darüber hinaus konzentrierte sich die aktuelle Implementierung von MKA hauptsächlich auf Transformer-basierte Architekturen. Die Anwendbarkeit und Effektivität von MKA auf andere neuronale Netzwerkarchitekturen, wie Convolutional Neural Networks (CNNs) oder Recurrent Neural Networks (RNNs), ist noch nicht umfassend erforscht und stellt einen vielversprechenden Bereich für zukünftige Untersuchungen dar.
Die kontinuierliche Weiterentwicklung von Optimierungs- und Komprimierungstechniken auf Basis geometrischer Prinzipien wird entscheidend sein, um die Effizienz und Skalierbarkeit von LLMs weiter zu steigern und ihre Integration in vielfältige Geschäftsprozesse zu ermöglichen.
Bibliography:
- Gu, Y., & Xie, Z. (2026). Mano: Restriking Manifold Optimization for LLM Training. arXiv preprint arXiv:2601.23000. - Liu, D., Qin, Z., Wang, H., Yang, Z., Wang, Z., Rong, F., ... & Sui, D. (2024). Pruning via Merging: Compressing LLMs via Manifold Alignment Based Layer Merging. Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing, 17817-17829. - Park, J., Kang, M., Lee, S., Lee, H., Kim, S., & Lee, J. (2025). Riemannian Optimization for LoRA on the Stiefel Manifold. arXiv preprint arXiv:2508.17901. - Sarkar, D. (2026). AI Researchers Innovate LLM Training with Manifold-Constrained HC. LinkedIn Post. - Rosić, V. (2026). Manifold Constrained Hyper Connections - mHC. YouTube Video. - Di Sipio, R. (2025). Rethinking LLM Training through Information Geometry and Quantum Metrics. arXiv preprint arXiv:2506.15830. - Red Hat. (n.d.). AI performance research papers. Retrieved from https://www.redhat.com/en/artificial-intelligence/research - Emergent Mind. (n.d.). Controlled LLM Training on Spectral Sphere. Retrieved from https://www.emergentmind.com/papers/2601.08393Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen