Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Integration von künstlicher Intelligenz in alltägliche Anwendungen schreitet stetig voran. Insbesondere große Sprachmodelle (LLMs) haben das Potenzial, die Art und Weise, wie wir mit Systemen interagieren, grundlegend zu verändern. Ein bemerkenswertes Anwendungsgebiet ist die Entwicklung konversationeller Empfehlungssysteme. Diese Systeme ermöglichen es Nutzern, ihre Präferenzen in natürlicher Sprache auszudrücken und Empfehlungen durch einen Dialog zu erhalten. Doch die Anpassung von LLMs an diese spezifische Aufgabe birgt Herausforderungen, die in der aktuellen Forschung intensiv beleuchtet werden.
Traditionelle Empfehlungssysteme basieren häufig auf expliziten Bewertungen oder dem Verhalten anderer Nutzer. Mit dem Aufkommen von LLMs eröffnen sich neue Möglichkeiten für eine dynamischere und intuitivere Interaktion. Nutzer können nicht nur direkt ihre Wünsche äußern, sondern auch Rückfragen stellen oder Präferenzen im Laufe des Gesprächs anpassen. Dies führt zu einem weitaus natürlicheren und personalisierteren Empfehlungserlebnis.
Trotz des Potenzials stehen Entwickler von LLM-basierten konversationellen Empfehlungssystemen vor mehreren Hürden:
Diese Probleme sind besonders bei kleineren, effizienteren LLMs ausgeprägt, die für den praktischen Einsatz oft bevorzugt werden.
Um diesen Herausforderungen zu begegnen, wurde ein Framework namens ConvRec-R1 entwickelt. Dieses Framework setzt auf einen zweistufigen Ansatz, der Supervised Fine-Tuning (SFT) mit Reinforcement Learning (RL) kombiniert, um LLM-basierte konversationelle Empfehlungssysteme end-to-end zu trainieren.
Die erste Stufe von ConvRec-R1 konzentriert sich auf die Initialisierung des LLM-basierten konversationellen Empfehlungssystems mit grundlegendem Wissen. Dies beinhaltet die Sensibilisierung für den Item-Katalog, die Einhaltung erforderlicher Ausgabeformate und die Entwicklung einer anfänglichen Rangfolgekompetenz.
Eine zentrale Schwierigkeit bei diesem Schritt ist der Mangel an hochwertigen, katalogbezogenen und bereits gerankten Demonstrationsdaten. Manuelle Annotationen in großem Maßstab sind aufgrund der Komplexität und der subjektiven Natur von Empfehlungen kaum praktikabel. Um dies zu umgehen, nutzt ConvRec-R1 eine innovative "Remap-Reflect-Adjust"-Pipeline. Diese Pipeline destilliert hochwertige, katalogbezogene Empfehlungen von einem leistungsstarken "Lehrer-LLM" (z.B. GPT-4o), um einen Datensatz für das Behavior Cloning zu erstellen.
Der resultierende Datensatz dient dann dazu, das "Schüler-LLM" durch Behavior Cloning zu optimieren, indem die negative Log-Wahrscheinlichkeit der Demonstrationssequenzen minimiert wird. Diese SFT-Phase ist entscheidend, um das Modell im Katalog zu erden, korrekte Formatierungen zu erzwingen und eine starke Initialisierung für die nachfolgende RL-Phase zu bieten, was die Sampling-Effizienz und Trainingsstabilität verbessert.
Nach der SFT-Phase wird die initialisierte Policy des Empfehlungssystems mittels Reinforcement Learning weiter verfeinert. Ziel ist es, die Empfehlungsqualität direkt anhand von strukturierten Belohnungen zu optimieren, die aus Nutzerfeedback abgeleitet werden.
Die Forschung kritisiert hierbei herkömmliche Algorithmen wie Group Relative Policy Optimization (GRPO), die sequenzielle Belohnungen (z.B. DCG@N) für token-basierte Policy-Updates verwenden. Dies führt zu zwei grundlegenden Fehlausrichtungen:
Um diese Probleme zu lösen, schlagen die Forscher Rank-GRPO vor, eine Weiterentwicklung von GRPO, die jede Rangposition in der Empfehlungsliste als Aktionseinheit betrachtet. Die Kerninnovation ist das Rang-Level-Wichtungsverhältnis, das als geometrisches Mittel der Token-Wahrscheinlichkeiten für das Element an dieser Rangposition definiert wird. Dies bietet ein stabiles, längen-normalisiertes Maß für die Policy-Divergenz.
Der rangweise Vorteil wird aus einer Gruppe generierter Antworten geschätzt, wobei eine rang-level Belohnung verwendet wird, die den "nicht-kausalen" Teil der Sequenzbelohnung maskiert. Konkret wird die Belohnung für Rang k als DCG@k:N definiert – die Summe der diskontierten Relevanz von Rang k bis N. Dies stellt sicher, dass jedes Element nur für seinen eigenen und die nachfolgenden Beiträge belohnt wird, wodurch die kausale Struktur der Generierung respektiert wird. Eine alternative Variante, Rank-GRPO (exp), die eine exponentielle Abklingrate verwendet, konzentriert sich auf die unmittelbare Relevanz und erweist sich als besonders effektiv.
Die Zielfunktion maximiert eine "geclippte" Version des Rang-Level-Wichtungsverhältnisses multipliziert mit dem rangweisen Vorteil, was stabile Policy-Updates ermöglicht. Eine Gradientenanalyse bestätigt, dass Rank-GRPO die Fehlausrichtungen von GRPO behebt, indem es die Granularität von Belohnungen, Wichtungsfaktoren und Gradienten auf Rank-Level abstimmt. Dies führt zu einer präziseren Kreditzuweisung und verbesserter Stabilität, insbesondere am Ende der Empfehlungsliste, wo Standardmethoden typischerweise an Qualität verlieren.
Die Wirksamkeit von ConvRec-R1 wurde auf dem REDDIT-V2-Datensatz evaluiert, einem großen Benchmark für konversationelle Empfehlungen. Für die SFT-Phase wurden 25 % des Trainingsdatensatzes und der gesamte Validierungsdatensatz verwendet, um den SFT-Datensatz über die "Remap-Reflect-Adjust"-Pipeline zu erstellen. Die Experimente wurden mit drei Open-Source-LLMs durchgeführt: Qwen2.5-0.5B, Llama-3.2-1B und Llama-3.2-3B.
Während des SFT-Prozesses zeigte sich, dass der Trainingsverlust stetig abnahm, während der Validierungsverlust ein Plateau erreichte. Dies spiegelt die Schwierigkeit wider, lange, strukturierte Listen zu lernen. Dennoch überstieg der Anteil der im Katalog befindlichen Empfehlungen 99 %, und der NDCG@20-Wert verbesserte sich dramatisch im Vergleich zur Zero-Shot-Baseline.
In der RL-Phase demonstrierten die Ergebnisse, dass Rank-GRPO eine monotone Verbesserung der Belohnung über alle Ränge hinweg erreichte, im Gegensatz zu GRPO, das in späteren Positionen einen Qualitätsabfall zeigte. Rank-GRPO konvergierte schneller und erzielte einen höheren Validierungs-NDCG, wobei die größten Gewinne bei höheren k-Werten auftraten, was auf eine bessere Leistung am Ende der Empfehlungsliste hindeutet. Die exponentielle Variante zeigte besonders starke Verbesserungen an den oberen Rängen, was auf eine Retrieval- und Re-Ranking-Dynamik schließen lässt.
Im Off-Policy-Setting behielt Rank-GRPO seinen Vorteil bei, was den Nutzen der abgestimmten rangweisen Wichtung unterstreicht. Die Testset-Ergebnisse zeigten, dass ConvRec-R1 die Zero-Shot-LLMs erheblich übertraf und sogar mit größeren Black-Box-Modellen wie GPT-4o und CRAG in Bezug auf Recall und NDCG@20 mithalten oder diese übertreffen konnte, obwohl CRAG aufgrund mehrerer API-Aufrufe höhere Kosten verursacht. Dies verdeutlicht die Effizienz und Effektivität des vorgeschlagenen Frameworks, das es kleineren, Open-Source-LLMs ermöglicht, eine vergleichbare oder sogar überlegene Leistung in konversationellen Empfehlungssystemen zu erzielen.
Die Forschung hinter ConvRec-R1 und Rank-GRPO stellt einen signifikanten Fortschritt in der Entwicklung von LLM-basierten konversationellen Empfehlungssystemen dar. Durch die systematische Adressierung der Herausforderungen bei der Katalogintegration, Formatierung und Rangfolgequalität bietet dieses Framework einen Weg, die Effizienz und Effektivität von Empfehlungsdiensten zu steigern. Die Ergebnisse zeigen, dass selbst kleinere Sprachmodelle, wenn sie korrekt abgestimmt und trainiert werden, in der Lage sind, mit leistungsfähigeren, proprietären Modellen zu konkurrieren oder diese sogar zu übertreffen. Dies eröffnet vielversprechende Perspektiven für Unternehmen, die personalisierte und interaktive Empfehlungserlebnisse bei optimierten Ressourcenanforderungen anbieten möchten.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen