Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Optimierung von Sprachmodellen basierend auf menschlichem Feedback stellt eine zentrale Herausforderung in der Entwicklung künstlicher Intelligenz dar. Traditionelle Ansätze verlassen sich häufig auf die Präferenzoptimierung, die Aktualisierungen der Modellpolitik durch Regularisierung auf Token-Ebene einschränkt. Eine jüngst veröffentlichte Forschungsarbeit stellt jedoch einen innovativen Ansatz vor, der diese Einschränkungen überwindet: die latente adversarielle Regularisierung für die Offline-Präferenzoptimierung.
Bei der Feinabstimmung großer Sprachmodelle (LLMs) ist das Lernen aus menschlichem Feedback entscheidend, um die Modelle an menschliche Präferenzen anzupassen. Die meisten gängigen Methoden basieren auf der paarweisen Präferenzoptimierung, bei der ein Policy-Modell aktualisiert wird, während es gleichzeitig einem Referenzmodell nahegehalten wird. Diese Regularisierung erfolgt typischerweise durch KL-Divergenz auf Token-Ebene. Ein grundlegendes Problem hierbei ist, dass die Ähnlichkeit im Token-Raum nicht zwangsläufig eine semantische oder verhaltensbezogene Ähnlichkeit impliziert. Beispielsweise können zwei Sätze wie „Hallo“ und „Guten Morgen“ im Token-Raum sehr unterschiedlich sein, aber semantisch eng verwandt, während „Hallo“ und „Hau rein“ im Token-Raum ähnlich erscheinen, aber semantisch weit auseinanderliegen. Solche Divergenzen auf Token-Ebene können daher nur eine ungenaue Annäherung an die tatsächliche Verhaltensähnlichkeit darstellen.
Um diese Limitationen zu adressieren, wurde GANPO (Generative Adversarial Network Preference Optimization) entwickelt. Diese Methode nutzt die Regularisierung im latenten Raum für die Präferenzoptimierung von Sprachmodellen. GANPO bestraft die Divergenz zwischen den internen Repräsentationen des Policy-Modells und eines Referenzmodells. Da latente Repräsentationen keine expliziten Wahrscheinlichkeitsdichten aufweisen, wird ein adversarieller Ansatz, inspiriert von Generative Adversarial Networks (GANs), eingesetzt, um die Divergenz im latenten Raum zu minimieren.
Die Integration von GANPO als Regularisierer in bestehende Offline-Präferenzoptimierungsziele hat in Experimenten über verschiedene Modellarchitekturen und Aufgaben hinweg konsistente Verbesserungen gezeigt. Dies deutet darauf hin, dass die Regularisierung im latenten Raum eine robustere strukturelle Rückmeldung unter Verteilungsverschiebungen und Rauschen ermöglicht, während die nachgelagerte Leistung mit geringem Rechenaufwand vergleichbar bleibt.
GANPO erweitert traditionelle Offline-Präferenzoptimierungsansätze wie DPO (Direct Preference Optimization) oder SimPO (Simple Preference Optimization) durch die Einführung eines Diskriminators, der direkt auf latenten Repräsentationen operiert. Dieser Diskriminator bietet eine dichte strukturelle Rückmeldung. Im Gegensatz zu DPO, das sich auf fest vorgegebene Präferenzdatensätze stützt und anfällig für Scheinkorrelationen wie die Länge der Antwort ist (was zu mehr Wortreichtum statt semantischer Verbesserung führen kann), formuliert GANPO die Präferenzangleichung als Nullsummenspiel zwischen Generator und Diskriminator. Dies führt zu einer gemeinsamen Stärkung beider Komponenten durch adversarielle Optimierung.
Der adversarielle Signal wirkt dabei als geometrieerhaltender Regularisierer, der die Policy auch unter Verteilungsverschiebungen an das Referenz-Manifold hochwertiger Antworten anpasst. Ein wesentlicher Designaspekt ist die Definition von „echten“ Daten: Bei GANPO bestehen diese aus Repräsentationen, die vom Referenzmodell generiert werden. Dies bietet zwei Vorteile gegenüber der Verankerung an ein externes, "stärkeres" Lehrmodell:
Die Forschungsergebnisse zeigen, dass GANPO die Leistung der zugrunde liegenden Offline-Präferenzoptimierungsmethoden, wie DPO und SimPO, konsistent verbessert. Auf dem AlpacaEval-2.0-Benchmark konnten sowohl bei Gemma2-2B-it als auch bei Llama3-8B-Instruct Modellen deutliche Gewinne bei den Gewinnraten erzielt werden, ohne die Antwortlänge zu erhöhen. Dies deutet darauf hin, dass die adversarielle Regularisierung die Qualität der Ausrichtung verbessert, ohne auf erhöhte Ausführlichkeit angewiesen zu sein.
Besonders hervorzuheben ist die Robustheit von GANPO unter stochastischer Dekodierung. Bei erhöhten Sampling-Temperaturen, die zu größerer Diversität, aber auch zu erhöhter struktureller Instabilität führen, zeigte GANPO eine deutlich bessere Leistung als DPO. Während DPO bei hohen Temperaturen (T ≥ 1.0) zu einem rapiden strukturellen Kollaps neigt, bewahrt GANPO die strukturelle Kohärenz und die Einhaltung von Anweisungen. Dies unterstreicht die Fähigkeit von GANPO, eine strukturell robuste Manifold zu lernen, die über die reine Oberflächenebene hinausgeht.
Zudem wurde festgestellt, dass der von GANPO trainierte Diskriminator auch unter Out-of-Distribution-Bedingungen eine starke positive Korrelation mit einem Goldstandard-Belohnungsmodell aufrechterhält, während ein herkömmliches gelerntes Belohnungsmodell unter solchen Bedingungen zu schwerwiegendem "Reward Hacking" neigt. Dies bestätigt, dass der Diskriminator als effektiver struktureller Regularisierer im latenten Raum fungiert und semantische Eigenschaften statt oberflächlicher Token-Muster erfasst.
Trotz der vielversprechenden Ergebnisse weist GANPO auch Limitationen auf. Die Methode erfordert die Pflege und Aktualisierung eines Diskriminators neben der Policy, was einen gewissen Rechenaufwand mit sich bringt und die Hyperparameter-Abstimmung komplexer machen kann. Sollte das Referenzmodell selbst eine fehlerhafte latente Struktur aufweisen, könnte GANPO diese topologischen Mängel erben. Zukünftige Arbeiten könnten die Ergänzung des Diskriminators mit symbolischem Feedback erforschen, um strikte syntaktische Beschränkungen (z.B. gültiges JSON, kompilierbaren Code) als differenzierbare Manifold-Einschränkungen zu erzwingen.
Darüber hinaus könnte die Erweiterung von GANPO auf ein Online-"Self-Play"-Framework, bei dem das Modell eigene Rollouts generiert und von einem sich entwickelnden Diskriminator kritisiert wird, die Lücke zwischen Offline-Effizienz und den Leistungsvorteilen von Online-Methoden schließen. Da GANPO auf dem Repräsentationsraum und nicht auf diskreten Token operiert, ist es prinzipiell modalitätsagnostisch. Eine Anpassung an Vision-Language Models (VLMs) könnte eine leistungsstarke Methode für die Ausrichtung multimodaler Generierung bieten, bei der strukturelle Konsistenz zwischen Text- und Bildrepräsentationen entscheidend ist.
Insgesamt stellt die latente adversarielle Regularisierung für die Offline-Präferenzoptimierung einen bedeutenden Fortschritt im Bereich der Sprachmodelloptimierung dar. Sie bietet einen robusten und effizienten Weg, um Sprachmodelle besser an menschliche Präferenzen anzupassen und gleichzeitig die strukturelle Integrität der generierten Inhalte zu wahren.
Bibliography: - Jiang, E., Zhang, Y. J., Xu, Y., Haupt, A., Amato, N., & Koyejo, S. (2026). Latent Adversarial Regularization for Offline Preference Optimization. arXiv preprint arXiv:2601.22083. - Hugging Face. (2026). Paper page - Latent Adversarial Regularization for Offline Preference Optimization. - Emergent Mind. (2025). Offline Preference-based RL. - OpenReview. (2025). Offline Model-Based Optimization by Learning to Rank. - Cen, S., Mei, J., Goshvadi, K., Dai, H., Yang, T., Yang, S., Schuurmans, D., Chi, Y., & Dai, B. (2024). Value-Incentivized Preference Optimization: A Unified Approach to Online and Offline RLHF. arXiv preprint arXiv:2405.07863. - Tang, Y., Guo, Z. D., Zheng, Z., Calandriello, D., Munos, R., Rowland, M., Richemond, P. H., Valko, M., Ávila Pires, B., & Piot, B. (2024). Generalized Preference Optimization: A Unified Approach to Offline Alignment. arXiv preprint arXiv:2402.05749. - Lu, C., Holt, S., Fanconi, C., Chan, A., Foerster, J., van der Schaar, M., & Lange, R. (2024). Discovering Preference Optimization Algorithms with and for Large Language Models. NeurIPS 2024 Poster. - Zhou, W., Bajracharya, S., & Held, D. (2020). PLAS: Latent Action Space for Offline Reinforcement Learning. 4th Conference on Robot Learning (CoRL 2020).Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen