Optimierung konversationeller Empfehlungssysteme durch große Sprachmodelle und Reinforcement Learning

Kategorien:

No items found.

Freigegeben:

November 9, 2025

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Große Sprachmodelle (LLMs) revolutionieren Empfehlungssysteme durch konversationelle Interaktion.
Herausforderungen bei LLM-basierten Empfehlungssystemen umfassen die Generierung von nicht im Katalog vorhandenen Elementen, die Einhaltung von Ausgabeformaten und die Qualität der Rangfolge am Ende von Listen.
ConvRec-R1 ist ein zweistufiges Framework, das diese Probleme durch Supervised Fine-Tuning (SFT) und Reinforcement Learning (RL) adressiert.
Die SFT-Phase nutzt eine "Remap-Reflect-Adjust"-Pipeline, um hochwertige, katalogbezogene Demonstrationen zu erstellen.
Die RL-Phase führt Rank-GRPO ein, eine Weiterentwicklung von GRPO, die speziell für Ranglisten-Ausgaben optimiert ist und eine präzisere Kreditzuweisung ermöglicht.
Experimente zeigen, dass ConvRec-R1 schneller konvergiert und bessere Ergebnisse in Bezug auf Recall und NDCG erzielt, insbesondere bei kleineren LLMs.
Kleinere, gut abgestimmte LLMs können mit ConvRec-R1 eine vergleichbare oder überlegene Leistung wie größere Modelle bei geringeren Kosten und Latenzen erreichen.

Die Integration von künstlicher Intelligenz in alltägliche Anwendungen schreitet stetig voran. Insbesondere große Sprachmodelle (LLMs) haben das Potenzial, die Art und Weise, wie wir mit Systemen interagieren, grundlegend zu verändern. Ein bemerkenswertes Anwendungsgebiet ist die Entwicklung konversationeller Empfehlungssysteme. Diese Systeme ermöglichen es Nutzern, ihre Präferenzen in natürlicher Sprache auszudrücken und Empfehlungen durch einen Dialog zu erhalten. Doch die Anpassung von LLMs an diese spezifische Aufgabe birgt Herausforderungen, die in der aktuellen Forschung intensiv beleuchtet werden.

Die Evolution konversationeller Empfehlungssysteme

Traditionelle Empfehlungssysteme basieren häufig auf expliziten Bewertungen oder dem Verhalten anderer Nutzer. Mit dem Aufkommen von LLMs eröffnen sich neue Möglichkeiten für eine dynamischere und intuitivere Interaktion. Nutzer können nicht nur direkt ihre Wünsche äußern, sondern auch Rückfragen stellen oder Präferenzen im Laufe des Gesprächs anpassen. Dies führt zu einem weitaus natürlicheren und personalisierteren Empfehlungserlebnis.

Herausforderungen bei der Implementierung von LLMs in Empfehlungssystemen

Trotz des Potenzials stehen Entwickler von LLM-basierten konversationellen Empfehlungssystemen vor mehreren Hürden:

Generierung von nicht im Katalog vorhandenen Elementen: Vorab trainierte LLMs neigen dazu, Empfehlungen zu generieren, die nicht im tatsächlichen Produkt- oder Servicekatalog existieren. Dies führt zu einer schlechten Nutzererfahrung und erfordert zusätzliche Filtermechanismen.
Verletzung vorgeschriebener Ausgabeformate: LLMs können Schwierigkeiten haben, spezifische Ausgabeformate einzuhalten, beispielsweise das Einschließen von Veröffentlichungsjahren bei Filmen. Eine konsistente Formatierung ist jedoch für die Nutzbarkeit und Weiterverarbeitung der Empfehlungen entscheidend.
Qualitätsabfall bei längeren Empfehlungslisten: Die Rangfolgequalität der generierten Empfehlungen nimmt oft zum Ende einer Liste hin stark ab. Dies deutet darauf hin, dass die Modelle Schwierigkeiten haben, eine gleichbleibend hohe Relevanz über eine größere Anzahl von Vorschlägen aufrechtzuerhalten.

Diese Probleme sind besonders bei kleineren, effizienteren LLMs ausgeprägt, die für den praktischen Einsatz oft bevorzugt werden.

ConvRec-R1: Ein zweistufiges Framework zur Optimierung

Um diesen Herausforderungen zu begegnen, wurde ein Framework namens ConvRec-R1 entwickelt. Dieses Framework setzt auf einen zweistufigen Ansatz, der Supervised Fine-Tuning (SFT) mit Reinforcement Learning (RL) kombiniert, um LLM-basierte konversationelle Empfehlungssysteme end-to-end zu trainieren.

Stufe 1: Supervised Fine-Tuning (SFT) mit "Remap-Reflect-Adjust"-Pipeline

Die erste Stufe von ConvRec-R1 konzentriert sich auf die Initialisierung des LLM-basierten konversationellen Empfehlungssystems mit grundlegendem Wissen. Dies beinhaltet die Sensibilisierung für den Item-Katalog, die Einhaltung erforderlicher Ausgabeformate und die Entwicklung einer anfänglichen Rangfolgekompetenz.

Eine zentrale Schwierigkeit bei diesem Schritt ist der Mangel an hochwertigen, katalogbezogenen und bereits gerankten Demonstrationsdaten. Manuelle Annotationen in großem Maßstab sind aufgrund der Komplexität und der subjektiven Natur von Empfehlungen kaum praktikabel. Um dies zu umgehen, nutzt ConvRec-R1 eine innovative "Remap-Reflect-Adjust"-Pipeline. Diese Pipeline destilliert hochwertige, katalogbezogene Empfehlungen von einem leistungsstarken "Lehrer-LLM" (z.B. GPT-4o), um einen Datensatz für das Behavior Cloning zu erstellen.

Die "Remap-Reflect-Adjust"-Pipeline im Detail:

Remap: Dieser Schritt überführt die Roh-Empfehlungen des Lehrer-LLMs von dessen internem Empfehlungsraum in den Zielkatalograum. Dabei wird ein anfänglicher Score für jedes Element im Katalog berechnet. Dies geschieht durch Aggregation von Positions-Scores aus der Lehrer-Liste, gewichtet durch die semantische Ähnlichkeit zwischen den Elementen und der Relevanz zum Dialogkontext.
Reflect: Zur Verbesserung der kontextuellen Relevanz bewertet das Lehrer-LLM (als "Richter") die Top-Kandidaten aus der neu zugeordneten Liste hinsichtlich ihrer Eignung für den aktuellen Dialog. Diese Bewertungen werden normalisiert und zu den Remap-Scores hinzugefügt, um subtile Benutzerpräferenzen zu berücksichtigen, die möglicherweise nicht allein durch embedding-basierte Ähnlichkeiten erfasst werden.
Adjust: Der letzte Schritt korrigiert verbleibende Popularitätsverzerrungen. Hierbei werden elementspezifische multiplikative und additive Verzerrungen gelernt, um die Score-Verteilung an die empirische Häufigkeit von Ground-Truth-Elementen in den Trainingsdaten anzupassen. Dies stellt sicher, dass die endgültige Demonstrationsliste tatsächliche Benutzerpräferenzen widerspiegelt und nicht primär die inhärenten Verzerrungen des Lehrer-Modells.

Der resultierende Datensatz dient dann dazu, das "Schüler-LLM" durch Behavior Cloning zu optimieren, indem die negative Log-Wahrscheinlichkeit der Demonstrationssequenzen minimiert wird. Diese SFT-Phase ist entscheidend, um das Modell im Katalog zu erden, korrekte Formatierungen zu erzwingen und eine starke Initialisierung für die nachfolgende RL-Phase zu bieten, was die Sampling-Effizienz und Trainingsstabilität verbessert.

Stufe 2: Reinforcement Learning (RL) mit Rank-GRPO

Nach der SFT-Phase wird die initialisierte Policy des Empfehlungssystems mittels Reinforcement Learning weiter verfeinert. Ziel ist es, die Empfehlungsqualität direkt anhand von strukturierten Belohnungen zu optimieren, die aus Nutzerfeedback abgeleitet werden.

Die Forschung kritisiert hierbei herkömmliche Algorithmen wie Group Relative Policy Optimization (GRPO), die sequenzielle Belohnungen (z.B. DCG@N) für token-basierte Policy-Updates verwenden. Dies führt zu zwei grundlegenden Fehlausrichtungen:

Nicht-kausale Kreditzuweisung: Sequenzielle Belohnungen werden jedem Token gleichmäßig zugewiesen. Dies bedeutet, dass Token in späteren Elementen einer Empfehlungsliste für frühere, qualitativ hochwertigere Empfehlungen "gutgeschrieben" werden, obwohl die Generierung autoregressiv erfolgt.
Fehlende Abstimmung der Wichtungsfaktoren: Das token-level Wichtungsverhältnis stimmt nicht mit dem sequenz-level Vorteil überein, was zu instabilen Updates führen kann.

Um diese Probleme zu lösen, schlagen die Forscher Rank-GRPO vor, eine Weiterentwicklung von GRPO, die jede Rangposition in der Empfehlungsliste als Aktionseinheit betrachtet. Die Kerninnovation ist das Rang-Level-Wichtungsverhältnis, das als geometrisches Mittel der Token-Wahrscheinlichkeiten für das Element an dieser Rangposition definiert wird. Dies bietet ein stabiles, längen-normalisiertes Maß für die Policy-Divergenz.

Der rangweise Vorteil wird aus einer Gruppe generierter Antworten geschätzt, wobei eine rang-level Belohnung verwendet wird, die den "nicht-kausalen" Teil der Sequenzbelohnung maskiert. Konkret wird die Belohnung für Rang k als DCG@k:N definiert – die Summe der diskontierten Relevanz von Rang k bis N. Dies stellt sicher, dass jedes Element nur für seinen eigenen und die nachfolgenden Beiträge belohnt wird, wodurch die kausale Struktur der Generierung respektiert wird. Eine alternative Variante, Rank-GRPO (exp), die eine exponentielle Abklingrate verwendet, konzentriert sich auf die unmittelbare Relevanz und erweist sich als besonders effektiv.

Die Zielfunktion maximiert eine "geclippte" Version des Rang-Level-Wichtungsverhältnisses multipliziert mit dem rangweisen Vorteil, was stabile Policy-Updates ermöglicht. Eine Gradientenanalyse bestätigt, dass Rank-GRPO die Fehlausrichtungen von GRPO behebt, indem es die Granularität von Belohnungen, Wichtungsfaktoren und Gradienten auf Rank-Level abstimmt. Dies führt zu einer präziseren Kreditzuweisung und verbesserter Stabilität, insbesondere am Ende der Empfehlungsliste, wo Standardmethoden typischerweise an Qualität verlieren.

Experimentelle Evaluierung und Ergebnisse

Die Wirksamkeit von ConvRec-R1 wurde auf dem REDDIT-V2-Datensatz evaluiert, einem großen Benchmark für konversationelle Empfehlungen. Für die SFT-Phase wurden 25 % des Trainingsdatensatzes und der gesamte Validierungsdatensatz verwendet, um den SFT-Datensatz über die "Remap-Reflect-Adjust"-Pipeline zu erstellen. Die Experimente wurden mit drei Open-Source-LLMs durchgeführt: Qwen2.5-0.5B, Llama-3.2-1B und Llama-3.2-3B.

Während des SFT-Prozesses zeigte sich, dass der Trainingsverlust stetig abnahm, während der Validierungsverlust ein Plateau erreichte. Dies spiegelt die Schwierigkeit wider, lange, strukturierte Listen zu lernen. Dennoch überstieg der Anteil der im Katalog befindlichen Empfehlungen 99 %, und der NDCG@20-Wert verbesserte sich dramatisch im Vergleich zur Zero-Shot-Baseline.

In der RL-Phase demonstrierten die Ergebnisse, dass Rank-GRPO eine monotone Verbesserung der Belohnung über alle Ränge hinweg erreichte, im Gegensatz zu GRPO, das in späteren Positionen einen Qualitätsabfall zeigte. Rank-GRPO konvergierte schneller und erzielte einen höheren Validierungs-NDCG, wobei die größten Gewinne bei höheren k-Werten auftraten, was auf eine bessere Leistung am Ende der Empfehlungsliste hindeutet. Die exponentielle Variante zeigte besonders starke Verbesserungen an den oberen Rängen, was auf eine Retrieval- und Re-Ranking-Dynamik schließen lässt.

Im Off-Policy-Setting behielt Rank-GRPO seinen Vorteil bei, was den Nutzen der abgestimmten rangweisen Wichtung unterstreicht. Die Testset-Ergebnisse zeigten, dass ConvRec-R1 die Zero-Shot-LLMs erheblich übertraf und sogar mit größeren Black-Box-Modellen wie GPT-4o und CRAG in Bezug auf Recall und NDCG@20 mithalten oder diese übertreffen konnte, obwohl CRAG aufgrund mehrerer API-Aufrufe höhere Kosten verursacht. Dies verdeutlicht die Effizienz und Effektivität des vorgeschlagenen Frameworks, das es kleineren, Open-Source-LLMs ermöglicht, eine vergleichbare oder sogar überlegene Leistung in konversationellen Empfehlungssystemen zu erzielen.

Fazit und Ausblick

Die Forschung hinter ConvRec-R1 und Rank-GRPO stellt einen signifikanten Fortschritt in der Entwicklung von LLM-basierten konversationellen Empfehlungssystemen dar. Durch die systematische Adressierung der Herausforderungen bei der Katalogintegration, Formatierung und Rangfolgequalität bietet dieses Framework einen Weg, die Effizienz und Effektivität von Empfehlungsdiensten zu steigern. Die Ergebnisse zeigen, dass selbst kleinere Sprachmodelle, wenn sie korrekt abgestimmt und trainiert werden, in der Lage sind, mit leistungsfähigeren, proprietären Modellen zu konkurrieren oder diese sogar zu übertreffen. Dies eröffnet vielversprechende Perspektiven für Unternehmen, die personalisierte und interaktive Empfehlungserlebnisse bei optimierten Ressourcenanforderungen anbieten möchten.

Bibliographie

- Yaochen Zhu, Harald Steck, Dawen Liang, Yinhan He, Vito Ostuni, Jundong Li, Nathan Kallus. "Rank-GRPO: Training LLM-based Conversational Recommender Systems with Reinforcement Learning." arXiv preprint arXiv:2510.20150, 2022. - TheMoonlight.io. "[Literature Review] Rank-GRPO: Training LLM-based Conversational Recommender Systems with Reinforcement Learning." Published 2025-10-25. - ChatPaper.com. "Rank-GRPO: Training LLM-based Conversational Recommender Systems with Reinforcement Learning." Published 2025-11-04. - HuggingFace.co/papers. "Rank-GRPO: Training LLM-based Conversational Recommender Systems with Reinforcement Learning." Submitted on Nov 3.