Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Feinabstimmung von Large Language Models (LLMs) ist ein zentraler Aspekt, um diese leistungsstarken Modelle für spezifische Aufgaben anzupassen. Eine weit verbreitete und effiziente Technik hierfür sind Low-Rank Adapters (LoRAs). Diese Methode integriert trainierbare, niedrigrangige Matrizen in vortrainierte Modelle, um sie an neue Aufgaben anzupassen und dabei die Anzahl der trainierbaren Parameter gering zu halten. Aufbauend auf dem Erfolg von LoRAs haben Forscher Mixture-of-LoRAs-Modelle entwickelt, um die Parameter-Effizienz und die Ausdruckskraft weiter zu steigern. Diese Modelle leiten jede Schicht-Eingabe an eine kleine Untergruppe spezialisierter LoRAs der jeweiligen Schicht weiter.
Bestehende Mixture-of-LoRAs-Router weisen jeder LoRA ein lernbares Routing-Gewicht zu, um ein End-to-End-Training des Routers zu ermöglichen. Trotz ihrer vielversprechenden Ergebnisse in der Praxis wurde jedoch ein kritisches Problem festgestellt: Die Routing-Gewichte sind typischerweise extrem unausgewogen. Oft dominieren nur ein oder zwei LoRAs die Routing-Gewichte, selbst wenn mehrere LoRAs aktiviert sind. Dies führt zu einer erheblichen Einschränkung der Anzahl effektiver LoRAs und beeinträchtigt somit die Ausdruckskraft der bestehenden Mixture-of-LoRAs-Modelle. Dieses Phänomen wird als "Routing-Gewichts-Kollaps" bezeichnet.
Die Forschung führt diese Schwäche auf die Natur der lernbaren Routing-Gewichte zurück und hat daher das grundlegende Design des Routers überdacht. Eine neue Methode, genannt Reinforcement Routing for Mixture-of-LoRAs (ReMix), wurde vorgeschlagen, um dieses kritische Problem zu adressieren.
Die Kernidee von ReMix besteht darin, nicht-lernbare Routing-Gewichte zu verwenden. Dadurch wird sichergestellt, dass alle aktiven LoRAs gleichermaßen effektiv sind und keine einzelne LoRA die Gewichte dominiert. Da diese nicht-lernbaren Routing-Gewichte ein direktes Training über Gradientenabstieg verhindern, wurde ein neuartiger Ansatz entwickelt. Das Problem des Router-Trainings wird als Reinforcement Learning (RL)-Problem neu formuliert, wobei der Supervised Fine-Tuning (SFT)-Verlust als negative Belohnung und der Router als Policy-Modell im Reinforcement Learning betrachtet werden.
Zusätzlich wurde ein unverzerrter Gradientenschätzer für den Router vorgeschlagen, der die Reinforce Leave-One-Out (RLOO)-Technik nutzt, um die Varianz des Schätzers zu reduzieren. Dieser Gradientenschätzer ermöglicht es zudem, die Rechenleistung für das Training zu skalieren, um die Vorhersageleistung von ReMix zu steigern.
Im ReMix-Ansatz wird für eine gegebene Schicht-Eingabe zunächst eine kategoriale Routing-Verteilung über die LoRAs erzeugt. Diese Verteilung dient dazu, die k LoRAs auszuwählen, die aktiviert werden sollen. Um das Problem des extremen Ungleichgewichts der Routing-Gewichte in bestehenden Mixture-of-LoRAs-Modellen zu lösen, weist ReMix allen k aktivierten LoRAs ein konstantes Routing-Gewicht zu, während nicht-aktivierte LoRAs null Gewichte erhalten. Dieses Design stellt sicher, dass die effektive Unterstützungsgröße (ESS) der Routing-Gewichte genau k beträgt, was im Gegensatz zu lernbaren Routing-Gewichten steht.
Das Training der LoRA-Parameter erfolgt weiterhin über deren Gradienten bezüglich des SFT-Verlusts. Für die Router-Parameter ist dies jedoch aufgrund der konstanten Routing-Gewichte nicht direkt möglich. Daher wird das Router-Training als RL-Problem betrachtet. Eine Stichprobe von LoRAs wird aus der Routing-Verteilung gezogen. Um die rechnerische Unmöglichkeit der direkten Gradientenberechnung zu umgehen, wird der RLOO-Gradientenschätzer eingesetzt. Dieser unverzerrte Schätzer ermöglicht ein stabiles Training und eine effiziente Skalierung der Rechenleistung.
Während der Inferenzphase wählt ReMix die LoRAs mittels einer Top-k-Auswahlstrategie aus. Es wurde theoretisch gezeigt, dass diese Strategie optimal ist, sofern der Router ausreichend gut trainiert wurde. Wenn die Stichprobenziehung mit einer Wahrscheinlichkeit von mehr als 50 % die optimale Untergruppe liefert, verbessert die Top-K-Auswahl diese Wahrscheinlichkeit auf 100 %. Das bedeutet, dass die optimalen LoRAs diejenigen sind, die die höchsten Routing-Gewichte aufweisen.
Umfassende Experimente haben gezeigt, dass ReMix die derzeitigen Parameter-effizienten Feinabstimmungsmethoden signifikant übertrifft, sowohl in Bezug auf die Vorhersagekraft als auch auf die Recheneffizienz. Die Methode wurde auf verschiedenen Benchmarks evaluiert, darunter GSM8K (mathematisches Schlussfolgern), HumanEval (Code-Generierung) und ARC-c (Wissensabruf), unter Verwendung des Llama 3 8B als Basis-LLM.
ReMix übertrifft alle Baseline-Methoden konsistent über die Benchmarks hinweg. Im Durchschnitt wurde eine Leistungssteigerung von 2,82 % gegenüber dem stärksten Konkurrenzansatz erzielt. Insbesondere übertraf ReMix die besten Methoden aus den Kategorien "Prefix Injection", "Weight Modulation" und "Mixture" um 25,88 %, 2,82 % bzw. 3,34 % im Durchschnitt. Auch in Bezug auf die Parameter-Effizienz schneidet ReMix hervorragend ab. Mit nur 0,070 Milliarden trainierbaren Parametern erreicht es eine Reduzierung von 90 % im Vergleich zu den Parameter-intensivsten Baselines und 31 % im Vergleich zu den effektivsten Mixture-Methoden.
Ablationsstudien bestätigten die entscheidende Rolle der beiden Schlüsselkomponenten von ReMix: die RLOO-Methode für das Router-Training und die Top-k-LoRA-Auswahl für die Inferenz. Das Entfernen einer dieser Komponenten führte zu einem signifikanten Leistungsabfall, was die Bedeutung ihrer Integration unterstreicht.
Ein weiterer wichtiger Befund ist die Diversität der von ReMix aktivierten LoRA-Untergruppen. Der Vergleich mit einer einzelnen Rank-kr LoRA mit der gleichen Anzahl von LoRA-Parametern zeigte, dass ReMix deutlich bessere Ergebnisse erzielt. Dies belegt, dass die Methode in der Lage ist, unterschiedliche Untergruppen von LoRAs angemessen auszuwählen und somit die Ausdruckskraft des Modells zu maximieren.
ReMix zeigte auch eine verbesserte Trainingseffizienz. Obwohl es geringfügig mehr Trainingszeit in Anspruch nimmt als MixLoRA, erzielt es eine erhebliche relative Verbesserung der Genauigkeit. Darüber hinaus profitiert ReMix von der Skalierung der Rechenleistung während des Trainings. Eine Erhöhung der Anzahl der gesampelten Auswahlen führte zu einer stetigen Verbesserung der Genauigkeit, was die Fähigkeit von ReMix demonstriert, zusätzliche Rechenressourcen effektiv zu nutzen.
ReMix stellt einen bedeutenden Fortschritt in der Feinabstimmung von Large Language Models dar. Durch die Beseitigung des Problems unausgewogener Routing-Gewichte in Mixture-of-LoRAs-Modellen und die Einführung eines Reinforcement-Learning-basierten Routers bietet ReMix eine Methode, die sowohl die Vorhersageleistung als auch die Recheneffizienz signifikant verbessert. Die Fähigkeit, alle aktiven LoRAs gleichermaßen zu nutzen und von skalierten Trainingsressourcen zu profitieren, macht ReMix zu einem vielversprechenden Ansatz für die zukünftige Entwicklung und Anwendung von LLMs in vielfältigen B2B-Szenarien.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen