Jetzt reinschauen – neue Umgebung live

Sicherheitsstrategien für große Sprachmodelle: AIDSAFE als neuer Ansatz zur Datengenerierung

Kategorien:
No items found.
Freigegeben:
June 3, 2025

Artikel jetzt als Podcast anhören

Sicherheitsüberlegungen in großen Sprachmodellen: Ein neuer Ansatz zur Datengenerierung

Die Sicherheit von großen Sprachmodellen (LLMs) ist ein zentrales Thema der aktuellen KI-Forschung. Herkömmliche Sicherheitsmaßnahmen, wie Filter oder Blacklist-Ansätze, stoßen oft an ihre Grenzen. Sie führen häufig zu übermäßiger Ablehnung von Anfragen (Over-Refusal) oder sind anfällig für sogenannte Jailbreaks, bei denen Nutzer die Sicherheitsmechanismen umgehen. Ein vielversprechender Ansatz zur Verbesserung der Sicherheit ist das sogenannte "Safety Reasoning", bei dem LLMs Sicherheitsrichtlinien berücksichtigen, bevor sie Antworten generieren.

Die Implementierung von Safety Reasoning ist jedoch komplex. Die Erstellung von qualitativ hochwertigen Datensätzen, die sowohl Sicherheitsrichtlinien als auch den Gedankengang (Chain-of-Thought, CoT) des Modells enthalten, ist ressourcenintensiv. Gleichzeitig muss sichergestellt werden, dass die Argumentation des Modells korrekt ist und frei von Halluzinationen oder Richtlinienkonflikten bleibt.

AIDSAFE: Ein agentenbasierter Ansatz für sicheres Schlussfolgern

Forscher haben nun AIDSAFE (Agentic Iterative Deliberation for Safety Reasoning) vorgestellt, ein neues Verfahren zur Datengenerierung, das Multi-Agenten-Deliberation nutzt, um iterativ die Argumentation über Sicherheitsrichtlinien zu erweitern. Vereinfacht gesagt, simuliert AIDSAFE eine Diskussion zwischen mehreren Agenten, die jeweils unterschiedliche Perspektiven auf die Sicherheitsrichtlinien einnehmen. Durch diesen Austausch entsteht ein detaillierter und umfassender CoT, der die verschiedenen Aspekte der Sicherheitsrichtlinien beleuchtet.

Ein weiterer wichtiger Bestandteil von AIDSAFE ist die Datenverfeinerung. In dieser Phase werden repetitive, redundante und irreführende Gedanken aus dem generierten CoT entfernt. Dadurch wird die Qualität der Daten verbessert und die Grundlage für ein effektives Supervised Fine-Tuning (SFT) geschaffen.

Zusätzliche Strategien für verbessertes Alignment

Um den Bedarf an Präferenzdaten in Alignment-Phasen, wie z.B. beim Direct Preference Optimization (DPO) Training, zu decken, haben die Forscher eine ergänzende Methode entwickelt. Diese nutzt sogenannte "Belief Augmentation", um unterschiedliche ausgewählte und abgelehnte CoT-Beispiele zu erstellen. Dadurch lernt das Modell, welche Argumentationen zu sicheren und welche zu unsicheren Antworten führen.

Evaluierung und Ergebnisse

Evaluierungen zeigen, dass mit AIDSAFE generierte CoTs eine höhere Richtlinienkonformität und Argumentationsqualität aufweisen. Das Fine-Tuning von Open-Source-LLMs mit diesen Daten führt zu einer signifikanten Verbesserung der Sicherheitsgeneralisierung und Jailbreak-Robustheit, ohne die Nutzbarkeit und Over-Refusal-Genauigkeit negativ zu beeinflussen.

Ausblick und Bedeutung für die KI-Entwicklung

AIDSAFE stellt einen wichtigen Schritt in Richtung sicherere und robustere LLMs dar. Die agentenbasierte Datengenerierung ermöglicht die Erstellung von hochwertigen Trainingsdaten, die die komplexen Anforderungen des Safety Reasonings erfüllen. Durch die Kombination von Multi-Agenten-Deliberation und Datenverfeinerung bietet AIDSAFE ein vielversprechendes Werkzeug für die Entwicklung von KI-Systemen, die sowohl leistungsstark als auch sicher sind. Die frei verfügbaren AIDSAFE-Datensätze auf Hugging Face ermöglichen es Forschern und Entwicklern weltweit, auf diesen Fortschritten aufzubauen und die Sicherheitsaspekte von LLMs weiter zu verbessern.

Bibliography: Kumarage, T., Mehrabi, N., Ramakrishna, A., Zhao, X., Zemel, R., Chang, K., ... & Gupta, R. (2025). Towards Safety Reasoning in LLMs: AI-agentic Deliberation for Policy-embedded CoT Data Creation. arXiv preprint arXiv:2505.21784. https://arxiv.org/abs/2505.21784 https://arxiv.org/pdf/2505.21784 https://x.com/SciFi/status/1928066963273621813 https://huggingface.co/papers?q=SciSafetyBench https://paperreading.club/page?id=310559 https://2025.aclweb.org/program/find_papers/ https://github.com/Xuchen-Li/llm-arxiv-daily https://openai.com/index/deliberative-alignment/ https://github.com/tmgthb/Autonomous-Agents
Was bedeutet das?

Wie können wir Ihnen heute helfen?

Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.