Das Wichtigste in Kürze
- Das TriPlay-RL-Framework führt ein dreistufiges Reinforced Learning ein, um die Sicherheit grosser Sprachmodelle (LLMs) zu verbessern.
- Es adressiert die Herausforderungen der herkömmlichen LLM-Sicherheitsausrichtung, wie die Skalierbarkeit manueller Annotationen und die Divergenz von Angriffsstrategien.
- Drei interagierende Rollen – Angreifer (MRed), Verteidiger (MBlue) und Evaluator (MEval) – entwickeln sich in einer geschlossenen Schleife kontinuierlich weiter.
- MRed generiert vielfältige und effektive Angriffe, MBlue verbessert die Sicherheitsleistung ohne Einbussen bei der Denkfähigkeit, und MEval verfeinert die Bewertungsgenauigkeit.
- Das Framework minimiert den Bedarf an manuellen Annotationen und ermöglicht eine effiziente und skalierbare Sicherheitsausrichtung.
- Experimentelle Ergebnisse zeigen signifikante Verbesserungen in der Angriffs- und Verteidigungsfähigkeit sowie der Bewertungsstabilität.
Innovative Ansätze zur Sicherheitsausrichtung von Large Language Models: Das TriPlay-RL-Framework
Die rapide Entwicklung von grossen Sprachmodellen (LLMs) hat deren Rolle in der Gesellschaft massgeblich erweitert. Parallel dazu wachsen jedoch die Sicherheitsrisiken, insbesondere die Generierung toxischer oder schädlicher Inhalte. Eine effektive Sicherheitsausrichtung ist daher unerlässlich für den praktischen Einsatz dieser Modelle. Traditionelle Ansätze zur Sicherheitsausrichtung stehen vor Herausforderungen wie dem hohen Aufwand manueller Annotationen, der mangelnden Skalierbarkeit und dem potenziellen Verlust allgemeiner Denkfähigkeiten bei der Verteidigung gegen Angriffe. Eine neue Forschung, veröffentlicht in "TriPlay-RL: Tri-Role Self-Play Reinforcement Learning for LLM Safety Alignment", stellt einen neuartigen Ansatz vor, der diese Limitationen überwinden soll.
Die Herausforderungen bestehender Sicherheitsmechanismen
Bisherige Methoden zur Sicherheitsausrichtung von LLMs basieren oft auf einem kollaborativen Framework, das typischerweise drei Rollen umfasst: einen Angreifer zur Generierung adversarieller Prompts, einen Verteidiger zur Abwehr von Sicherheitsbedrohungen und einen Evaluator zur Bewertung von Antworten. Trotz Fortschritten, wie der Nutzung von KI-Feedback zur Selbstverbesserung oder dem Einsatz von LLMs als automatische Evaluatoren, bleiben kritische Probleme bestehen:
- Skalierbarkeit und Effizienz: Die Abhängigkeit von kostspieligen manuellen Annotationen oder menschlichen Überprüfungen begrenzt sowohl die Skalierbarkeit als auch die iterative Effizienz.
- Isolierte Optimierung: Viele Studien optimieren einzelne Rollen isoliert, was zu einem "Entropy Collapse" im Red-Teaming oder einem "Defense Overfitting" führen kann, bei dem die allgemeine Denkfähigkeit des Modells beeinträchtigt wird.
- Mangelnde Angriffs-Diversität: Angriffsmuster neigen dazu, während des Trainings zu konvergieren, was zu einer unzureichenden Diversität adversarieller Beispiele führt und den Druck auf die Verteidigungssysteme schwächt.
Im Gegensatz zu Spielen mit klaren Gewinnbedingungen oder mathematischen Aufgaben mit objektiven Korrektheitsstandards sind die Sicherheitsbewertungskriterien für LLMs kontextabhängig und flexibel. Die Beurteilung schädlicher Inhalte erfordert subjektives Urteilsvermögen und kontextuelle Interpretation, was feste Evaluatoren unzuverlässig macht.
TriPlay-RL: Ein dreistufiges Reinforcement Learning Framework
Um diese Einschränkungen zu überwinden, wurde TriPlay-RL entwickelt, ein geschlossenes Reinforcement Learning Framework, das eine iterative und sich gegenseitig verbessernde Zusammenarbeit zwischen drei Rollen ermöglicht – mit minimalem manuellem Annotationsaufwand. Dieses Framework ist inspiriert vom Self-Play-Paradigma von AlphaZero, das sich in Bereichen wie Schach und Go als transformativ erwiesen hat.
Die drei Rollen im Detail: MRed, MBlue und MEval
Das TriPlay-RL-Framework basiert auf der dynamischen Interaktion und sequenziellen Aktualisierung dreier Modelle:
- MRed (Attacker): Dieses Modell ist dafür zuständig, adversarielle Prompts zu generieren. Es umschliesst grundlegende Prompts, um Angriffe zu erzeugen. MRed wird durch ein Belohnungssystem optimiert, das die Effektivität des Angriffs, die semantische Konsistenz und die Diversität der generierten Prompts berücksichtigt. Durch Diversitätsstrafen wird verhindert, dass MRed repetitive oder vorlagenbasierte Angriffe generiert, was den Druck auf den Verteidiger aufrechterhält.
- MBlue (Defender): Der Verteidiger erhält die von MRed generierten adversariellen Prompts. Seine Aufgabe ist es, unsichere Anfragen nicht nur abzulehnen, sondern, wenn möglich, auch sichere und konstruktive Anleitungen zu geben. MBlue wird anhand eines dreistufigen Belohnungsschemas trainiert, das zwischen negativen (Sicherheitsrisiken), ablehnenden (einfache Verweigerung) und positiven (hilfreiche Anleitung) Antworten unterscheidet. Dies fördert die Entwicklung von defensiven Fähigkeiten, ohne die allgemeine Denkfähigkeit des Modells zu beeinträchtigen.
- MEval (Evaluator): Dieser Evaluator bewertet die Antworten von MBlue. MEval ist darauf ausgelegt, eine feingranulare Drei-Klassen-Klassifikation durchzuführen, die zwischen einfacher Ablehnung und nützlicher Anleitung unterscheidet. Die Trainingsdaten für MEval stammen aus dem adversariellen Prozess zwischen MRed und MBlue. Ein Multi-Expert-Mehrheitswahlsystem wird eingesetzt, um die Robustheit der Bewertung zu verbessern und "Reward Hacking" zu minimieren.
Diese Rollen entwickeln sich in einem geschlossenen Regelkreis kontinuierlich weiter, wobei jede Phase – PRed, PBlue und PEval – sequenziell aktualisiert wird. Dieser dynamische Prozess ermöglicht eine spiralförmige Progression der Fähigkeiten aller beteiligten Modelle.
Experimentelle Ergebnisse und deren Implikationen
Die experimentellen Ergebnisse des TriPlay-RL-Frameworks zeigen signifikante Verbesserungen in allen drei Bereichen:
- MRed: Die Angriffsfähigkeit von MRed verbessert sich drastisch. Es konnte eine Attack Success Rate (ASR) von 90% gegen Modelle wie Llama-3.1-Nemotron-Nano-8B-v1 erreichen und eine dreifache Verbesserung gegenüber der Baseline-ASR bei Qwen3-8B erzielen. Gleichzeitig bleibt die Diversität der generierten Angriffe hoch.
- MBlue: Der Verteidiger erreicht eine hohe Sicherheitsleistung, ohne die allgemeine Denkfähigkeit zu beeinträchtigen. Im Gegenteil, in einigen Tests zeigte MBlue sogar leichte Verbesserungen in der Denkfähigkeit. Dies deutet darauf hin, dass die positiven Belohnungen während des Trainings das Modell dazu anregen, Sicherheit und Nützlichkeit auszubalancieren.
- MEval: Die Bewertungsgenauigkeit von MEval nimmt kontinuierlich zu. Dies führt zu genaueren und stabileren Belohnungssignalen für die Optimierung von MRed und MBlue.
Diese Resultate unterstreichen die Effizienz und Skalierbarkeit des TriPlay-RL-Paradigmas für die LLM-Sicherheitsausrichtung und ermöglichen eine kontinuierliche Ko-Evolution innerhalb einer einheitlichen Lernschleife.
Ablationsstudien und weitere Erkenntnisse
Ablationsstudien bestätigen die Bedeutung der einzelnen Komponenten des Frameworks. Die Verwendung mehrerer Verteidigungsmodelle während der PRed-Phase stärkt die Angriffsfähigkeiten und die Generalisierungsfähigkeit von MRed und mindert Overfitting. Die Diversitätsstrafe und das iterative Training sind entscheidend, um den Zusammenbruch der Trainings-Entropie (d.h. das Generieren immer gleicher Angriffe) zu verhindern und die Vielfalt der generierten Prompts aufrechtzuerhalten.
Ethische Überlegungen und zukünftige Forschungsrichtungen
Die Forschung erkennt auch ethische Implikationen an. Der automatisierte Red-Teaming-Ansatz birgt potenzielle Dual-Use-Risiken, da effektive adversarielle Prompts missbraucht werden könnten, um Sicherheitssysteme zu umgehen. Die Autoren betonen, dass das Framework ausschliesslich in einer kontrollierten Forschungsumgebung entwickelt und bewertet wurde, um defensive Modelle zu stärken und nicht, um reale Angriffe zu ermöglichen. Die Abhängigkeit von einem automatisierten Bewertungsmodell erfordert ebenfalls Vorsicht, da Fehler und Vorurteile nicht vollständig eliminiert werden können. Zudem kann die Sicherheitsausrichtung zu übermässiger Ablehnung oder eingeschränkter Nützlichkeit bei harmlosen Benutzeranfragen führen, ein Trade-off, der in zukünftigen Arbeiten weiter untersucht werden muss.
Zukünftige Forschungsrichtungen umfassen die Untersuchung von Szenarien, in denen die drei Rollen mit Modellen heterogener Fähigkeiten instanziiert werden, oder die Möglichkeit, alle drei Rollen in einer einzigen geteilten Modellinstanz zu optimieren. Auch die Integration externer Daten und eine tiefgehende Analyse der spieltheoretischen Eigenschaften der Drei-Modell-Interaktion sind wichtige offene Fragen.
Das TriPlay-RL-Framework bietet einen vielversprechenden Weg, die Sicherheit und Zuverlässigkeit grosser Sprachmodelle entscheidend zu verbessern und gleichzeitig die Notwendigkeit umfangreicher manueller Annotationen zu reduzieren. Es stellt einen wichtigen Schritt in Richtung einer autonomeren und robusteren Sicherheitsausrichtung von LLMs dar.
Bibliography
- Bai, Y., Kadavath, S., Kundu, S., Askell, A., Kernion, J., Jones, A., Chen, A., Goldie, A., Mirhoseini, A., McKinnon, C., et al. (2022). Constitutional ai: harmlessness from ai feedback. arXiv preprint arXiv:2212.08073.
- Bercovich, A., Levy, I., Golan, I., Dabbah, M., El-Yaniv, R., Puny, O., Galil, I., Moshe, Z., Ronen, T., Nabwani, N., et al. (2025). Llama-nemotron: efficient reasoning models. Preprint, arXiv:2505.00949.
- Casper, S., Lin, J., Kwon, J., Culp, G., and Hadfield-Menell, D. (2023). Explore, establish, exploit: red teaming language models from scratch. arXiv preprint arXiv:2306.09442.
- Chao, P., Debenedetti, E., Robey, A., Andriushchenko, M., Croce, F., Sehwag, V., Dobriban, E., Flammarion, N., Pappas, G. J., Tramer, F., et al. (2024). Jailbreakbench: an open robustness benchmark for jailbreaking large language models. Advances in Neural Information Processing Systems, 37:55005–55029.
- Competitions, A. M. (2025). American invitational mathematics examination 2025. https://www.maa.org/math-competitions/aime.
- DeepSeek-AI (2025). DeepSeek-r1: incentivizing reasoning capability in llms via reinforcement learning. Preprint, arXiv:2501.12948.
- Deng, Y., Yang, Y., Zhang, J., Wang, W., and Li, B. (2025). Duoguard: A two-player rl-driven framework for multilingual llm guardrails. arXiv preprint arXiv:2502.05163.
- Du, Z., Qian, Y., Liu, X., Ding, M., Qiu, J., Yang, Z., and Tang, J. (2022). Glm: general language model pretraining with autoregressive blank infilling. In Proceedings of the 60th annual meeting of the association for computational linguistics (volume 1: long papers), pages 320–335.
- Dubey, A., Jauhri, A., Pandey, A., Kadian, A., Al-Dahle, A., Letman, A., Mathur, A., Schelten, A., Yang, A., Fan, A., et al. (2024). The llama 3 herd of models. arXiv preprint arXiv:2407.21783.
- Gao, L., Schulman, J., and Hilton, J. (2023). Scaling laws for reward model overoptimization. In International Conference on Machine Learning, pages 10835–10866. PMLR.
- Guo, D., Yang, D., Zhang, H., Song, J., Zhang, R., Xu, R., Zhu, Q., Ma, S., Wang, P., Bi, X., et al. (2025). Deepseek-r1: incentivizing reasoning capability in llms via reinforcement learning. arXiv preprint arXiv:2501.12948.
- Hong, H., Yan, Y., Wu, X., Hou, G., Zhang, W., Lu, W., Shen, Y., and Xiao, J. (2025). Cooper: Co-optimizing policy and reward models in reinforcement learning for large language models. arXiv preprint arXiv:2508.05613.
- Hong, Z.-W., Shenfeld, I., Wang, T.-H., Chuang, Y.-S., Pareja, A., Glass, J., Srivastava, A., and Agrawal, P. (2024). Curiosity-driven red-teaming for large language models. arXiv preprint arXiv:2402.19464.
- Huang, C., Yu, W., Wang, X., Zhang, H., Li, Z., Li, R., Huang, J., Mi, H., and Yu, D. (2025a). R-zero: Self-evolving reasoning llm from zero data. arXiv preprint arXiv:2508.05004.
- Huang, T., Hu, S., Ilhan, F., Tekin, S. F., Yahn, Z., Xu, Y., and Liu, L. (2025b). Safety tax: Safety alignment makes your large reasoning models less reasonable. arXiv preprint arXiv:2503.00555.
- Jain, N., Han, K., Gu, A., Li, W.-D., Yan, F., Zhang, T., Wang, S., Solar-Lezama, A., Sen, K., and Stoica, I. (2024). Livecodebench: Holistic and contamination free evaluation of large language models for code. arXiv preprint arXiv:2403.07974.
- Jiang, L., Rao, K., Han, S., Ettinger, A., Brahman, F., Kumar, S., Mireshghallah, N., Lu, X., Sap, M., Choi, Y., et al. (2024). Wildteaming at scale: From in-the-wild jailbreaks to (adversarially) safer language models. Preprint, arXiv:2406.18510.
- Lee, D., Lee, J., Ha, J., Kim, J., Lee, S., Lee, H., and Song, H. O. (2023). Query-efficient black-box red teaming via bayesian optimization. arXiv preprint arXiv:2305.17444.
- Lee, S., Kim, M., Cherif, L., Dobre, D., Lee, J., Hwang, S. J., Kawaguchi, K., Gidel, G., Bengio, Y., Malkin, N., et al. (2024). Learning diverse attacks on large language models for robust red-teaming and safety tuning. arXiv preprint arXiv:2405.18540.
- Long, D. X., Yen, D. N., Luu, A. T., Kawaguchi, K., Kan, M.-Y., and Chen, N. F. (2024). Multi-expert prompting improves reliability, safety, and usefulness of large language models. arXiv preprint arXiv:2411.00492.
- Lu, H., Wen, Y., Cheng, P., Ding, R., Xu, H., Guo, J., Wang, C., Chen, H., Jiang, X., and Jiang, G. (2025a). Search self-play: Pushing the frontier of agent capability without supervision. arXiv preprint arXiv:2510.18821.
- Lu, S., Wang, H., Chen, Z., and Tang, Y. (2025b). Urpo: A unified reward & policy optimization framework for large language models. arXiv preprint arXiv:2507.17515.
- Mazeika, M., Phan, L., Yin, X., Zou, A., Wang, Z., Mu, N., Sakhaee, E., Li, N., Basart, S., Li, B., et al. (2024). Harmbench: A standardized evaluation framework for automated red teaming and robust refusal. arXiv preprint arXiv:2402.04249.
- Mehrabi, N., Goyal, P., Dupuy, C., Hu, Q., Ghosh, S., Zemel, R., Chang, K.-W., Galstyan, A., and Gupta, R. (2024). Flirt: Feedback loop in-context red teaming. In Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing, pages 703–718.
- OpenAI. (2025). GPT-5.2. Large language model.
- Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A., et al. (2022). Training language models to follow instructions with human feedback. Advances in neural information processing systems, 35:27730–27744.
- Perez, E., Huang, S., Song, F., Cai, T., Ring, R., Aslanides, J., Glaese, A., McAleese, N., and Irving, G. (2022). Red teaming language models with language models. arXiv preprint arXiv:2202.03286.
- Qi, X., Panda, A., Lyu, K., Ma, X., Roy, S., Beirami, A., Mittal, P., and Henderson, P. (2024). Safety alignment should be made more than just a few tokens deep. arXiv preprint arXiv:2406.05946.
- Rein, D., Hou, B. L., Stickland, A. C., Petty, J., Pang, R. Y., Dirani, J., Michael, J., and Bowman, S. R. (2024). Gpqa: A graduate-level google-proof q&a benchmark. In First Conference on Language Modeling.
- Reimers, N. and Gurevych, I. (2019). Sentence-bert: Sentence embeddings using siamese bert-networks. arXiv preprint arXiv:1908.10084.
- Si, J., Sun, L., Tan, Z., and Zhang, X. (2025). Efficient switchable safety control in llms via magic-token-guided co-training. arXiv preprint arXiv:2508.14904.
- Silver, D., Hubert, T., Schrittwieser, J., Antonoglou, I., Lai, M., Guez, A., Lanctot, M., Sifre, L., Kumaran, D., Graepel, T., et al. (2018). A general reinforcement learning algorithm that masters chess, shogi, and go through self-play. Science, 362(6419):1140–1144.
- Skalse, J., Howe, N., Krasheninnikov, D., and Krueger, D. (2022). Defining and characterizing reward gaming. Advances in Neural Information Processing Systems, 35:9460–9471.
- Tan, Z., Yu, W., Si, J., Liu, T., Guan, K., Jin, H., Tao, J., Yuan, X., Ma, D., Zhang, X., Yang, T., and Sun, L. (2026). TriPlay-RL: Tri-Role Self-Play Reinforcement Learning for LLM Safety Alignment. arXiv preprint arXiv:2601.18292.
- Tevet, G. and Berant, J. (2021). Evaluating the evaluation of diversity in natural language generation. In Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: Main Volume, pages 326–346.
- Touvron, H., Lavril, T., Izacard, G., Martinet, X., Lachaux, M.-A., Lacroix, T., Rozière, B., Goyal, N., Hambro, E., Azhar, F., et al. (2023). Llama: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971.
- von Werra, L., Belkada, Y., Tunstall, L., Beeching, E., Thrush, T., Lambert, N., Huang, S., Rasul, K., and Gallouédec, Q. (2020). TRL: transformer reinforcement learning. https://github.com/huggingface/trl.
- Xie, C., Zhang, Z., Zhou, Y., Bai, S., Wang, J., Ren, Z., and Yuille, A. L. (2019). Improving transferability of adversarial examples with input diversity. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 2730–2739.
- Yang, A., Li, A., Yang, B., Zhang, B., Hui, B., Zheng, B., Yu, B., Gao, C., Huang, C., Lv, C., et al. (2025). Qwen3 technical report. arXiv preprint arXiv:2505.09388.
- Yuan, X., Li, J., Wang, D., Chen, Y., Mao, X., Huang, L., Chen, J., Xue, H., Liu, X., Wang, W., et al. (2025). S-eval: Towards automated and comprehensive safety evaluation for large language models. Proceedings of the ACM on Software Engineering, 2(ISSTA):2136–2157.
- Zeng, Y., Yang, Y., Zhou, A., Tan, J. Z., Tu, Y., Mai, Y., Klyman, K., Pan, M., Jia, R., Song, D., et al. (2024). Air-bench 2024: A safety benchmark based on risk categories from regulations and policies. arXiv preprint arXiv:2407.17436.
- Zha, K., Gao, Z., Shen, M., Hong, Z.-W., Boning, D. S., and Katabi, D. (2025). Rl tango: Reinforcing generator and verifier together for language reasoning. arXiv preprint arXiv:2505.15034.
- Zheng, L., Chiang, W.-L., Sheng, Y., Zhuang, S., Wu, Z., Zhuang, Y., Lin, Z., Li, Z., Li, D., Xing, E., et al. (2023). Judging llm-as-a-judge with mt-bench and chatbot arena. Advances in neural information processing systems, 36:46595–46623.
- Zhou, J., Lu, T., Mishra, S., Brahma, S., Basu, S., Luan, Y., Zhou, D., and Hou, L. (2023). Instruction-following evaluation for large language models. arXiv preprint arXiv:2311.07911.
- Zhu, Y., Lu, S., Zheng, L., Guo, J., Zhang, W., Wang, J., and Yu, Y. (2018). Texygen: A benchmarking platform for text generation models. In The 41st international ACM SIGIR conference on research & development in information retrieval, pages 1097–1100.
- Zou, A., Wang, Z., Carlini, N., Nasr, M., Kolter, J. Z., and Fredrikson, M. (2023). Universal and transferable adversarial attacks on aligned language models. arXiv preprint arXiv:2307.15043.