Neuer Ansatz zur Feinabstimmung von LLMs: ReMix und die Überwindung von Routing-Herausforderungen

Kategorien:

No items found.

Freigegeben:

March 12, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Der schnelle Überblick

ReMix ist eine neue Methode zur Feinabstimmung von Large Language Models (LLMs) unter Verwendung von Mischungen von LoRAs (Low-Rank Adapters).
Bestehende Mixture-of-LoRAs-Ansätze leiden unter unausgewogenen Routing-Gewichten, bei denen oft nur wenige LoRAs dominieren und die expressive Kraft des Modells einschränken.
ReMix behebt dieses Problem durch die Einführung nicht-lernbarer, konstanter Routing-Gewichte für alle aktiven LoRAs.
Das Training des ReMix-Routers erfolgt mittels Reinforcement Learning und einem unverzerrten Gradientenschätzer (RLOO-Technik).
Experimente zeigen, dass ReMix die Leistung im Vergleich zu anderen Parameter-effizienten Feinabstimmungsmethoden signifikant verbessert und gleichzeitig eine hohe Parameter-Effizienz beibehält.
ReMix ermöglicht eine bessere Nutzung der aktivierten LoRAs und profitiert von der Skalierung der Rechenleistung während des Trainings.

Revolutionierung der LLM-Feinabstimmung: Eine Analyse von ReMix und der Verstärkung des Routings von LoRA-Mischungen

Die Feinabstimmung von Large Language Models (LLMs) ist ein zentraler Aspekt, um diese leistungsstarken Modelle für spezifische Aufgaben anzupassen. Eine weit verbreitete und effiziente Technik hierfür sind Low-Rank Adapters (LoRAs). Diese Methode integriert trainierbare, niedrigrangige Matrizen in vortrainierte Modelle, um sie an neue Aufgaben anzupassen und dabei die Anzahl der trainierbaren Parameter gering zu halten. Aufbauend auf dem Erfolg von LoRAs haben Forscher Mixture-of-LoRAs-Modelle entwickelt, um die Parameter-Effizienz und die Ausdruckskraft weiter zu steigern. Diese Modelle leiten jede Schicht-Eingabe an eine kleine Untergruppe spezialisierter LoRAs der jeweiligen Schicht weiter.

Die Herausforderung: Ungleichgewicht im Routing

Bestehende Mixture-of-LoRAs-Router weisen jeder LoRA ein lernbares Routing-Gewicht zu, um ein End-to-End-Training des Routers zu ermöglichen. Trotz ihrer vielversprechenden Ergebnisse in der Praxis wurde jedoch ein kritisches Problem festgestellt: Die Routing-Gewichte sind typischerweise extrem unausgewogen. Oft dominieren nur ein oder zwei LoRAs die Routing-Gewichte, selbst wenn mehrere LoRAs aktiviert sind. Dies führt zu einer erheblichen Einschränkung der Anzahl effektiver LoRAs und beeinträchtigt somit die Ausdruckskraft der bestehenden Mixture-of-LoRAs-Modelle. Dieses Phänomen wird als "Routing-Gewichts-Kollaps" bezeichnet.

Die Forschung führt diese Schwäche auf die Natur der lernbaren Routing-Gewichte zurück und hat daher das grundlegende Design des Routers überdacht. Eine neue Methode, genannt Reinforcement Routing for Mixture-of-LoRAs (ReMix), wurde vorgeschlagen, um dieses kritische Problem zu adressieren.

ReMix: Ein neuer Ansatz für ausgewogenes Routing

Die Kernidee von ReMix besteht darin, nicht-lernbare Routing-Gewichte zu verwenden. Dadurch wird sichergestellt, dass alle aktiven LoRAs gleichermaßen effektiv sind und keine einzelne LoRA die Gewichte dominiert. Da diese nicht-lernbaren Routing-Gewichte ein direktes Training über Gradientenabstieg verhindern, wurde ein neuartiger Ansatz entwickelt. Das Problem des Router-Trainings wird als Reinforcement Learning (RL)-Problem neu formuliert, wobei der Supervised Fine-Tuning (SFT)-Verlust als negative Belohnung und der Router als Policy-Modell im Reinforcement Learning betrachtet werden.

Zusätzlich wurde ein unverzerrter Gradientenschätzer für den Router vorgeschlagen, der die Reinforce Leave-One-Out (RLOO)-Technik nutzt, um die Varianz des Schätzers zu reduzieren. Dieser Gradientenschätzer ermöglicht es zudem, die Rechenleistung für das Training zu skalieren, um die Vorhersageleistung von ReMix zu steigern.

Architektur und Funktionsweise

Adapter-Architektur: Nicht-lernbare Gewichte

Im ReMix-Ansatz wird für eine gegebene Schicht-Eingabe zunächst eine kategoriale Routing-Verteilung über die LoRAs erzeugt. Diese Verteilung dient dazu, die k LoRAs auszuwählen, die aktiviert werden sollen. Um das Problem des extremen Ungleichgewichts der Routing-Gewichte in bestehenden Mixture-of-LoRAs-Modellen zu lösen, weist ReMix allen k aktivierten LoRAs ein konstantes Routing-Gewicht zu, während nicht-aktivierte LoRAs null Gewichte erhalten. Dieses Design stellt sicher, dass die effektive Unterstützungsgröße (ESS) der Routing-Gewichte genau k beträgt, was im Gegensatz zu lernbaren Routing-Gewichten steht.

Feinabstimmungsverfahren: RLOO

Das Training der LoRA-Parameter erfolgt weiterhin über deren Gradienten bezüglich des SFT-Verlusts. Für die Router-Parameter ist dies jedoch aufgrund der konstanten Routing-Gewichte nicht direkt möglich. Daher wird das Router-Training als RL-Problem betrachtet. Eine Stichprobe von LoRAs wird aus der Routing-Verteilung gezogen. Um die rechnerische Unmöglichkeit der direkten Gradientenberechnung zu umgehen, wird der RLOO-Gradientenschätzer eingesetzt. Dieser unverzerrte Schätzer ermöglicht ein stabiles Training und eine effiziente Skalierung der Rechenleistung.

Inferenzverfahren: Top-k Auswahl

Während der Inferenzphase wählt ReMix die LoRAs mittels einer Top-k-Auswahlstrategie aus. Es wurde theoretisch gezeigt, dass diese Strategie optimal ist, sofern der Router ausreichend gut trainiert wurde. Wenn die Stichprobenziehung mit einer Wahrscheinlichkeit von mehr als 50 % die optimale Untergruppe liefert, verbessert die Top-K-Auswahl diese Wahrscheinlichkeit auf 100 %. Das bedeutet, dass die optimalen LoRAs diejenigen sind, die die höchsten Routing-Gewichte aufweisen.

Experimentelle Ergebnisse und Leistungsbewertung

Umfassende Experimente haben gezeigt, dass ReMix die derzeitigen Parameter-effizienten Feinabstimmungsmethoden signifikant übertrifft, sowohl in Bezug auf die Vorhersagekraft als auch auf die Recheneffizienz. Die Methode wurde auf verschiedenen Benchmarks evaluiert, darunter GSM8K (mathematisches Schlussfolgern), HumanEval (Code-Generierung) und ARC-c (Wissensabruf), unter Verwendung des Llama 3 8B als Basis-LLM.

Hauptresultate

ReMix übertrifft alle Baseline-Methoden konsistent über die Benchmarks hinweg. Im Durchschnitt wurde eine Leistungssteigerung von 2,82 % gegenüber dem stärksten Konkurrenzansatz erzielt. Insbesondere übertraf ReMix die besten Methoden aus den Kategorien "Prefix Injection", "Weight Modulation" und "Mixture" um 25,88 %, 2,82 % bzw. 3,34 % im Durchschnitt. Auch in Bezug auf die Parameter-Effizienz schneidet ReMix hervorragend ab. Mit nur 0,070 Milliarden trainierbaren Parametern erreicht es eine Reduzierung von 90 % im Vergleich zu den Parameter-intensivsten Baselines und 31 % im Vergleich zu den effektivsten Mixture-Methoden.

Ablationsstudien

Ablationsstudien bestätigten die entscheidende Rolle der beiden Schlüsselkomponenten von ReMix: die RLOO-Methode für das Router-Training und die Top-k-LoRA-Auswahl für die Inferenz. Das Entfernen einer dieser Komponenten führte zu einem signifikanten Leistungsabfall, was die Bedeutung ihrer Integration unterstreicht.

Diversität der aktivierten LoRA-Untergruppen

Ein weiterer wichtiger Befund ist die Diversität der von ReMix aktivierten LoRA-Untergruppen. Der Vergleich mit einer einzelnen Rank-kr LoRA mit der gleichen Anzahl von LoRA-Parametern zeigte, dass ReMix deutlich bessere Ergebnisse erzielt. Dies belegt, dass die Methode in der Lage ist, unterschiedliche Untergruppen von LoRAs angemessen auszuwählen und somit die Ausdruckskraft des Modells zu maximieren.

Trainingseffizienz und Skalierbarkeit

ReMix zeigte auch eine verbesserte Trainingseffizienz. Obwohl es geringfügig mehr Trainingszeit in Anspruch nimmt als MixLoRA, erzielt es eine erhebliche relative Verbesserung der Genauigkeit. Darüber hinaus profitiert ReMix von der Skalierung der Rechenleistung während des Trainings. Eine Erhöhung der Anzahl der gesampelten Auswahlen führte zu einer stetigen Verbesserung der Genauigkeit, was die Fähigkeit von ReMix demonstriert, zusätzliche Rechenressourcen effektiv zu nutzen.

Fazit

ReMix stellt einen bedeutenden Fortschritt in der Feinabstimmung von Large Language Models dar. Durch die Beseitigung des Problems unausgewogener Routing-Gewichte in Mixture-of-LoRAs-Modellen und die Einführung eines Reinforcement-Learning-basierten Routers bietet ReMix eine Methode, die sowohl die Vorhersageleistung als auch die Recheneffizienz signifikant verbessert. Die Fähigkeit, alle aktiven LoRAs gleichermaßen zu nutzen und von skalierten Trainingsressourcen zu profitieren, macht ReMix zu einem vielversprechenden Ansatz für die zukünftige Entwicklung und Anwendung von LLMs in vielfältigen B2B-Szenarien.

Bibliographie

- Qiu, R., Zeng, H., Xia, Y., Meng, Y., Chen, R., Feng, J., Fu, D., Wang, Q., Liu, J., Xiao, J., Fan, X., Zhang, B., Li, H., Liu, Z., Yoo, H., Zeng, Z., Wei, T., & Tong, H. (2026). ReMix: Reinforcement routing for mixtures of LoRAs in LLM finetuning. arXiv preprint arXiv:2603.10160. - Qui, R., Zeng, H., Xia, Y., Meng, Y., Chen, R., Feng, J., Fu, D., Wang, Q., Liu, J., Xiao, J., Fan, X., Zhang, B., Li, H., Liu, Z., Yoo, H., Zeng, Z., Wei, T., & Tong, H. (2026). Reinforcement Routing for Mixtures of LoRAs in LLM Finetuning. OpenReview. - Huang, C., Liu, Q., Lin, B. Y., Pang, T., Du, C., & Lin, M. (2023). LoraHub: Efficient cross-task generalization via dynamic LoRA composition. arXiv preprint arXiv:2307.13269. - Wang, Y., Lin, Y., Zeng, X., & Zhang, G. (2023). MultiLoRA: Democratizing LoRA for better multi-task learning. arXiv preprint arXiv:2311.11501. - Tian, C., Shi, Z., Guo, Z., Li, L., & Xu, C. (2024). HydraLoRA: An asymmetric LoRA architecture for efficient fine-tuning. Advances in Neural Information Processing Systems (NeurIPS). - Zeng, H., Xia, Y., Zhao, Z., Jiang, G., Zhang, Q., Liu, J., Zhang, L., Fan, X., & Zhang, B. (2025). S’MoRE: Structural mixture of residual experts for LLM fine-tuning. arXiv preprint arXiv:2504.06426. - Wang, H., Ping, B., Wang, S., Han, X., Chen, Y., Liu, Z., & Sun, M. (2024). LoRA-Flow: Dynamic LoRA fusion for large language models in generative tasks. arXiv preprint arXiv:2402.11455. - Roy, A., Suin, M., Shah, K., & Chellappa, R. (2025). MultLFG: Training-free multi-LoRA composition using frequency-domain guidance. arXiv preprint arXiv:2505.20525.