Das Wichtigste in Kürze
- ROCKET ist eine neue, trainingsfreie Methode zur Komprimierung von KI-Modellen, die eine hohe Leistung bei erheblich reduzierten Modellgrößen erzielt.
- Die Methode basiert auf zwei Hauptinnovationen: einer schichtweisen Komprimierungszuweisung mittels eines Multi-Choice-Knapsack-Problems und einer einstufigen, kalibrierungsgesteuerten dünnbesetzten Matrixfaktorisierung.
- ROCKET ermöglicht Kompressionsraten von 20-50% und behält dabei über 90% der ursprünglichen Modellleistung bei 30% Komprimierung ohne Feineinstellung bei.
- Selbst bei leichter Feineinstellung nach der Komprimierung kann die Leistung von Modellen mit deutlich weniger Parametern beinahe an die von nativen, größeren Modellen heranreichen oder diese übertreffen.
- Die Implementierung von ROCKET zeigt eine signifikante Reduzierung des Energieverbrauchs, der Laufzeit und der CO2-Emissionen im Vergleich zu bestehenden Methoden.
- Die Methode ist über verschiedene Modellarchitekturen und Modalitäten (Text, Vision, Audio) hinweg anwendbar und generalisiert effektiv.
Effiziente Modellkomprimierung: ROCKET als trainingsfreier Ansatz für Large Language Models
Die rapide Entwicklung von Large Language Models (LLMs) und anderen umfangreichen KI-Modellen hat deren Leistungsfähigkeit in zahlreichen Anwendungsbereichen unter Beweis gestellt. Gleichzeitig stellen die enormen Rechen- und Speicheranforderungen dieser Modelle, sowohl während des Trainings als auch bei der Inferenz, eine erhebliche Herausforderung dar. Dies limitiert ihren breiten Einsatz, insbesondere auf Endgeräten oder in latenzkritischen Anwendungen. Vor diesem Hintergrund hat die Forschung intensiv an Methoden zur Modellkomprimierung gearbeitet, um die Effizienz und Zugänglichkeit dieser Modelle zu verbessern. Eine vielversprechende Neuentwicklung in diesem Bereich ist die Methode ROCKET: Rapid Optimization via Calibration-guided Knapsack Enhanced Truncation for Efficient Model Compression.
Grundlagen und Herausforderungen der Modellkomprimierung
Die Komprimierung von KI-Modellen zielt darauf ab, die Anzahl der Parameter und somit den Speicherbedarf und die Rechenlast zu reduzieren, ohne die Modellleistung wesentlich zu beeinträchtigen. Traditionelle Ansätze umfassen Quantisierung, Destillation und Gewichtskompression mittels Matrixfaktorisierung. Insbesondere die gewichtsbasierte Faktorisierung nach dem Training hat sich als effektiver Weg erwiesen, da sie eine erhebliche Parameterreduktion ohne aufwendiges erneutes Training oder Feineinstellung ermöglicht. Methoden wie die Low-Rank-Approximation mittels Singularwertzerlegung (SVD) haben sich etabliert, stossen jedoch an Grenzen, wenn es um die Repräsentationskapazität unter hohen Kompressionsraten geht.
Neuere Ansätze versuchen, diese Einschränkungen durch Rahmenwerke zu überwinden, die einem "Union-of-Subspaces"-Modell ähnlich dem Dictionary Learning folgen. Hierbei werden Gewichtsmatrizen als Kombinationen von Basis-Matrizen oder als sparsame lineare Kombinationen von Atomen aus einem gemeinsamen Dictionary dargestellt. Obwohl diese Ansätze theoretisch flexibler sind, leiden sie oft unter hohen Rechenkosten, da sie iterative Optimierungsverfahren wie alternierende Minimierung erfordern, die für grosse LLMs unpraktikabel sind.
ROCKET: Zwei Schlüsselkomponenten für Effizienz und Leistung
ROCKET setzt an diesen Herausforderungen an, indem es eine schnelle, trainingsfreie Komprimierungsmethode vorschlägt, die die Starrheit von Low-Rank-Faktorisierungen überwindet und gleichzeitig den Rechenaufwand iterativer Dictionary-Learning-Verfahren vermeidet. Die Methode integriert zwei zentrale Innovationen:
- Schichtweise Komprimierungszuweisung als Multi-Choice-Knapsack-Problem: ROCKET betrachtet die Zuweisung von Komprimierungsbudgets für jede Schicht eines Modells als ein Multi-Choice-Knapsack-Problem. Dies ermöglicht die Auswahl des optimalen Komprimierungsniveaus für jede einzelne Schicht, um den gesamten Rekonstruktionsfehler zu minimieren und gleichzeitig ein vorgegebenes Modellgrössenbudget einzuhalten. Im Gegensatz zu Methoden, die eine uniforme Komprimierung anwenden oder auf heuristischen schichtweisen Sensitivitätsschätzungen basieren, ermöglicht dieser Ansatz eine dynamische und leistungsorientierte Verteilung des globalen Komprimierungsbudgets.
- Einstufige, kalibrierungsgesteuerte dünnbesetzte Matrixfaktorisierung: Die Methode führt eine einstufige dünnbesetzte Matrixfaktorisierung ein, die vom Dictionary Learning inspiriert ist. Mithilfe eines kleinen Kalibrierungssatzes werden Gewichtskoeffizienten basierend auf der Aktivierungs-Gewichtungs-Sensitivität verdünnt. Anschliessend wird das Dictionary in geschlossener Form mittels kleinster Quadrate aktualisiert, wodurch iterative Optimierung, Sparse Coding oder Backpropagation vollständig umgangen werden. Dieser Ansatz ermöglicht eine schnelle und effiziente Faktorisierung von Gewichtsmatrizen in eine dünnbesetzte Dictionary-Repräsentation.
Leistungsfähigkeit und Ergebnisse
Umfassende Experimente zeigen, dass ROCKET bestehende Komprimierungsansätze konsistent übertrifft. Bei Kompressionsraten von 20-50% behält es über 90% der ursprünglichen Modellleistung bei 30% Komprimierung ohne jegliche Feineinstellung bei. Ein bemerkenswertes Ergebnis ist die Komprimierung von Qwen3-14B zu einem 8B-Parameter-Modell, dessen Leistung nach einer leichten Feineinstellungsphase mit nur 30 Millionen Token nahezu der des ursprünglichen Qwen3-8B entspricht. Dies deutet darauf hin, dass ROCKET eine hochwertige Initialisierung bietet, die eine effektive Wiederherstellung mit minimalem Daten- und Rechenaufwand ermöglicht.
Die Methode wurde nicht nur auf Sprachmodelle angewendet, sondern auch erfolgreich auf Modelle aus anderen Modalitäten wie dem Vision-Language-Modell Qwen3-4B-VL und dem Spracherzeugungsmodell VibeVoice übertragen. Dies unterstreicht die Generalisierbarkeit von ROCKET.
Vorteile und Implikationen für die Praxis
Die Vorteile von ROCKET sind vielfältig und haben weitreichende Implikationen für die Entwicklung und den Einsatz von KI-Modellen im B2B-Bereich:
- Signifikante Ressourceneinsparungen: Durch die Reduzierung der Modellgrösse werden Speicherbedarf und Rechenkosten erheblich gesenkt. Dies ist besonders relevant für den Einsatz auf Edge-Geräten oder in Umgebungen mit begrenzten Ressourcen.
- Erhöhte Zugänglichkeit: Kleinere Modelle sind leichter zu trainieren, zu deployen und zu warten, was die Zugänglichkeit und Anwendbarkeit von fortschrittlicher KI für Unternehmen jeder Grösse verbessert.
- Umweltfreundlichkeit: Die Reduzierung des Rechenaufwands führt zu einem geringeren Energieverbrauch und somit zu einer Verringerung der CO2-Emissionen. Vergleiche zeigen, dass ROCKET im Vergleich zu ähnlichen Methoden den Energieverbrauch um mehr als das Hundertfache senken und die CO2-Emissionen um das 23-fache reduzieren kann.
- Flexibilität in der Modellentwicklung: Anstatt mehrere Modelle unterschiedlicher Grösse von Grund auf neu zu trainieren, kann ein einziges grosses Modell trainiert und anschliessend mit ROCKET auf die gewünschte Grösse komprimiert werden. Dies bietet eine flexible, effiziente und skalierbare Alternative zu traditionellen Entwicklungspipelines.
- Wiederherstellung der Leistung: Die Option einer leichten Feineinstellung nach der Komprimierung ermöglicht es, die ursprüngliche Leistung des Modells nahezu vollständig wiederherzustellen oder sogar zu übertreffen.
Grenzen und zukünftige Richtungen
Trotz der vielversprechenden Ergebnisse gibt es auch Einschränkungen. Die dynamische Programmierungslösung von ROCKET, obwohl für Standardmodelle effizient, skaliert bei Architekturen mit einer sehr grossen Anzahl komprimierbarer Komponenten, wie modernen Mixture-of-Experts (MoE)-Modellen, nur schwer. Dies liegt an dem kombinatorischen Wachstum der Komprimierungsoptionen, und skalierbare Alternativen bleiben ein Forschungsbereich für die Zukunft. Darüber hinaus gehen die Feineinstellungsexperimente von einem festen Sparsitätsmuster aus, was suboptimal sein kann. Das gemeinsame Lernen adaptiver Sparsitätsmuster während der Feineinstellung könnte weitere Verbesserungen erzielen.
Fazit
ROCKET stellt einen signifikanten Fortschritt in der Modellkomprimierung dar. Durch die Kombination einer kalibrierungsgesteuerten strukturierten Gewichts-Faktorisierung mit einer optimalen schichtweisen Budgetzuweisung mittels einer Knapsack-Formulierung bietet es eine leistungsstarke und trainingsfreie Lösung. Die Fähigkeit, hohe Kompressionsraten bei minimalem Leistungsverlust zu erzielen und gleichzeitig den ökologischen Fussabdruck zu reduzieren, macht ROCKET zu einem wichtigen Werkzeug für Unternehmen, die effiziente und nachhaltige KI-Systeme entwickeln und einsetzen möchten.
Bibliographie
- Aharon, M., Elad, M., and Bruckstein, A. K-svd: An algorithm for designing overcomplete dictionaries for sparse representation. IEEE Transactions on Signal Processing, 54(11):4311–4322, 2006.
- Ali, A., Mohammad, B., Makhov, D., Shopkhoev, D., Zhussip, M., Lefkimmiatis, S. ROCKET: Rapid Optimization via Calibration-guided Knapsack Enhanced Truncation for Efficient Model Compression. arXiv preprint arXiv:2602.11008, 2026.
- Ashkboos, S., Croci, M. L., Nascimento, M. G. D., Hoefler, T., and Hensman, J. Slicegpt: Compress large language models by deleting rows and columns. In The Twelfth International Conference on Learning Representations, ICLR 2024, Vienna, Austria, May 7-11, 2024. OpenReview.net, 2024.
- Chen, L., Li, J., Dong, X., Zhang, P., Zang, Y., Chen, Z., Duan, H., Wang, J., Qiao, Y., Lin, D., et al. Are we on the right way for evaluating large vision-language models? arXiv preprint arXiv:2403.20330, 2024.
- Chen, P. H., Yu, H.-f., Dhillon, I. S., and Hsieh, C.-j. Drone: data-aware low-rank compression for large nlp models. In Proceedings of the 35th International Conference on Neural Information Processing Systems, NIPS ’21, Red Hook, NY, USA, 2021.
- Clark, P., Cowhey, I., Etzioni, O., Khot, T., Sabharwal, A., Schoenick, C., and Tafjord, O. Think you have solved question answering? try arc, the ai2 reasoning challenge, 2018.
- Frantar, E. and Alistarh, D. Sparsegpt: Massive language models can be accurately pruned in one-shot. In Proceedings of the 40th International Conference on Machine Learning, volume 202 of Proceedings of Machine Learning Research, pp. 10323–10337. PMLR, 2023.
- Gao, S., Hua, T., Hsu, Y.-C., Shen, Y., and Jin, H. Adaptive rank selections for low-rank approximation of language models. In Duh, K., Gomez, H., and Bethard, S. (eds.), Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers), pp. 227–241, Mexico City, Mexico, June 2024.
- Han, S., Pool, J., Tran, J., and Dally, W. J. Learning both weights and connections for efficient neural network. In Cortes, C., Lawrence, N. D., Lee, D. D., Sugiyama, M., and Garnett, R. (eds.), Advances in Neural Information Processing Systems 28: Annual Conference on Neural Information Processing Systems 2015, December 7-12, 2015, Montreal, Quebec, Canada, pp. 1135–1143, 2015.
- Hassibi, B. and Stork, D. Second order derivatives for network pruning: Optimal brain surgeon. In Hanson, S., Cowan, J., and Giles, C. (eds.), Advances in Neural Information Processing Systems, volume 5. MorganKaufmann, 1992.
- Hendrycks, D., Burns, C., Basart, S., Zou, A., Mazeika, M., Song, D., and Steinhardt, J. Measuring massive multitask language understanding, 2021a.
- Hendrycks, D., Burns, C., Kadavath, S., Arora, A., Basart, S., Tang, E., Song, D., and Steinhardt, J. Measuring mathematical problem solving with the MATH dataset. In Vanschoren, J. and Yeung, S. (eds.), Proceedings of the Neural Information Processing Systems Track on Datasets and Benchmarks 1, NeurIPS Datasets and Benchmarks 2021, December 2021, virtual, 2021b.
- Hinton, G. E., Vinyals, O., and Dean, J. Distilling the knowledge in a neural network. CoRR, abs/1503.02531, 2015.
- Kolawole, S., Dery, L., Kagy, J.-F., Smith, V., Neubig, G., and Talwalkar, A. Everybody prune now: Structured pruning of llms with only forward passes. arXiv preprint arXiv:2402.05406, 2024.
- Lai, G., Xie, Q., Liu, H., Yang, Y., and Hovy, E. Race: Large-scale reading comprehension dataset from examinations, 2017.
- Liu, Y., Duan, H., Zhang, Y., Li, B., Zhnag, S., Zhao, W., Yuan, Y., Wang, J., Liu, C. H. Z., Chen, K., and Lin, D. Mmbench: Is your multi-modal model an all-around player? arXiv:2307.06281, 2023a.
- Liu, Y., Li, Z., Huang, M., Yang, B., Yu, W., Li, C., Yin, X., lin Liu, C., Jin, L., and Bai, X. Ocrbench: On the hidden mystery of ocr in large multimodal models. 2023b.
- Ma, X., Fang, G., and Wang, X. Llm-pruner: On the structural pruning of large language models. Advances in neural information processing systems, 36:21702–21720, 2023a.
- Ma, X., Fang, G., and Wang, X. Llm-pruner: On the structural pruning of large language models. In Advances in Neural Information Processing Systems, 2023b.
- Macko, V. and Boˇza, V. Macko: Sparse matrix-vector multiplication for low sparsity. arXiv preprint arXiv:2511.13061, 2025.
- Marcus, M. P., Santorini, B., and Marcinkiewicz, M. A. Building a large annotated corpus of English: The Penn Treebank. Computational Linguistics, 19(2):313–330, 1993.
- Merity, S., Xiong, C., Bradbury, J., and Socher, R. Pointer sentinel mixture models, 2016.
- Paperno, D., Kruszewski, G., Lazaridou, A., Pham, Q. N., Bernardi, R., Pezzelle, S., Baroni, M., Boleda, G., and Fernandez, R. The lambada dataset: Word prediction requiring a broad discourse context, 2016.
- Penedo, G., Malartic, Q., Hesslow, D., Cojocaru, R., Cappelli, A., Alobeidli, H., Pannier, B., Almazrouei, E., and Launay, J. The RefinedWeb dataset for Falcon LLM: outperforming curated corpora with web data, and web data only. arXiv preprint arXiv:2306.01116, 2023.
- Peng, Z., Yu, J., Wang, W., Chang, Y., Sun, Y., Dong, L., Zhu, Y., Xu, W., Bao, H., Wang, Z., Huang, S., Xia, Y., and Wei, F. Vibevoice technical report. CoRR, abs/2508.19205, 2025.
- Pratap, V., Xu, Q., Sriram, A., Synnaeve, G., and Collobert, R. Mls: A large-scale multilingual dataset for speech research. ArXiv, abs/2012.03411, 2020.
- Rein, D., Hou, B. L., Stickland, A. C., Petty, J., Pang, R. Y., Dirani, J., Michael, J., and Bowman, S. R. GPQA: A graduate-level google-proof q&a benchmark. CoRR, abs/2311.12022, 2023.
- Shopkhoev, D., Zhussip, M., Makhov, D., Ali, A., and Lefkimmiatis, S. Cospadi: Compressing llms via calibration-guided sparse dictionary learning. 2025.
- Sprague, Z., Ye, X., Bostrom, K., Chaudhuri, S., and Durrett, G. Musr: Testing the limits of chain-of-thought with multistep soft reasoning. In The Twelfth International Conference on Learning Representations, ICLR 2024, Vienna, Austria, May 7-11, 2024. OpenReview.net, 2024.
- Sun, M., Liu, Z., Bair, A., and Kolter, J. Z. A simple and effective pruning approach for large language models. In The Twelfth International Conference on Learning Representations, ICLR 2024, Vienna, Austria, May 7-11, 2024. OpenReview.net, 2024.
- Suzgun, M., Scales, N., Scharli, N., Gehrmann, S., Tay, Y., Chung, H. W., Chowdhery, A., Le, Q. V., Chi, E. H., Zhou, D., and Wei, J. Challenging big-bench tasks and whether chain-of-thought can solve them. In Rogers, A., Boyd-Graber, J. L., and Okazaki, N. (eds.), Findings of the Association for Computational Linguistics: ACL 2023, Toronto, Canada, July 9-14, 2023, pp. 13003–13051. Association for Computational Linguistics, 2023.
- Taori, R., Gulrajani, I., Zhang, T., Dubois, Y., Li, X., Guestrin, C., Liang, P., and Hashimoto, T. B. Stanford alpaca: An instruction-following llama model. https://github.com/tatsu-lab/stanford_alpaca, 2023.
- Wang, Q., Ke, J., Tomizuka, M., Keutzer, K., and Xu, C. Dobi-svd: Differentiable SVD for LLM compression and some new perspectives. In The Thirteenth International Conference on Learning Representations, ICLR 2025, Singapore, April 24-28, 2025. OpenReview.net, 2025a.
- Wang, X., Zheng, Y., Wan, Z., and Zhang, M. Svd-llm: Truncation-aware singular value decomposition for large language model compression. In International Conference on Learning Representations, 2025b.
- Wang, Y., Ma, X., Zhang, G., Ni, Y., Chandra, A., Guo, S., Ren, W., Arulraj, A., He, X., Jiang, Z., Li, T., Ku, M., Wang, K., Zhuang, A., Fan, R., Yue, X., and Chen, W. Mmlu-pro: A more robust and challenging multi-task language understanding benchmark. In Globersons, A., Mackey, L., Belgrave, D., Fan, A., Paquet, U., Tomczak, J. M., and Zhang, C. (eds.), Advances in Neural Information Processing Systems 38: Annual Conference on Neural Information Processing Systems 2024, NeurIPS 2024, Vancouver, BC, Canada, December 10 - 15, 2024, 2024.
- Wang, Z., Wohlwend, J., and Lei, T. Structured pruning of large language models. In Webber, B., Cohn, T., He, Y., and Liu, Y. (eds.), Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing, EMNLP 2020, Online, November 16-20, 2020, pp. 6151–6162. Association for Computational Linguistics, 2020.
- Welbl, J., Liu, N. F., and Gardner, M. Crowdsourcing multiple choice science questions, 2017.
- Xv, L., Gao, J., Gao, X., Liu, T., and Fu, Y. ARA: adaptive rank allocation for efficient large language model SVD compression. CoRR, abs/2510.19389, 2025.
- Yuan, Z., Shang, Y., Song, Y., Wu, Q., Yan, Y., and Sun, G. ASVD: activation-aware singular value decomposition for compressing large language models. CoRR, abs/2312.05821, 2023.
- Yue, X., Ni, Y., Zhang, K., Zheng, T., Liu, R., Zhang, G., Stevens, S., Jiang, D., Ren, W., Sun, Y., Wei, C., Yu, B., Yuan, R., Sun, R., Yin, M., Zheng, B., Yang, Z., Liu, Y., Huang, W., Sun, H., Su, Y., and Chen, W. Mmmu: A massive multi-discipline multimodal understanding and reasoning benchmark for expert agi. In Proceedings of CVPR, 2024.
- Zellers, R., Holtzman, A., Bisk, Y., Farhadi, A., and Choi, Y. Hellaswag: Can a machine really finish your sentence?, 2019.
- Zhou, J., Lu, T., Mishra, S., Brahma, S., Basu, S., Luan, Y., Zhou, D., and Hou, L. Instruction-following evaluation for large language models. CoRR, abs/2311.07911, 2023.
- Zhussip, M., Shopkhoev, D., Ali, A., and Lefkimmiatis, S. Share your attention: Transformer weight sharing via matrix-based dictionary learning. arXiv preprint arXiv:2508.04581, 2025.