Sicherheitsstrategien für große Sprachmodelle: AIDSAFE als neuer Ansatz zur Datengenerierung

Kategorien:

No items found.

Freigegeben:

June 3, 2025

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Sicherheitsüberlegungen in großen Sprachmodellen: Ein neuer Ansatz zur Datengenerierung

Die Sicherheit von großen Sprachmodellen (LLMs) ist ein zentrales Thema der aktuellen KI-Forschung. Herkömmliche Sicherheitsmaßnahmen, wie Filter oder Blacklist-Ansätze, stoßen oft an ihre Grenzen. Sie führen häufig zu übermäßiger Ablehnung von Anfragen (Over-Refusal) oder sind anfällig für sogenannte Jailbreaks, bei denen Nutzer die Sicherheitsmechanismen umgehen. Ein vielversprechender Ansatz zur Verbesserung der Sicherheit ist das sogenannte "Safety Reasoning", bei dem LLMs Sicherheitsrichtlinien berücksichtigen, bevor sie Antworten generieren.

Die Implementierung von Safety Reasoning ist jedoch komplex. Die Erstellung von qualitativ hochwertigen Datensätzen, die sowohl Sicherheitsrichtlinien als auch den Gedankengang (Chain-of-Thought, CoT) des Modells enthalten, ist ressourcenintensiv. Gleichzeitig muss sichergestellt werden, dass die Argumentation des Modells korrekt ist und frei von Halluzinationen oder Richtlinienkonflikten bleibt.

AIDSAFE: Ein agentenbasierter Ansatz für sicheres Schlussfolgern

Forscher haben nun AIDSAFE (Agentic Iterative Deliberation for Safety Reasoning) vorgestellt, ein neues Verfahren zur Datengenerierung, das Multi-Agenten-Deliberation nutzt, um iterativ die Argumentation über Sicherheitsrichtlinien zu erweitern. Vereinfacht gesagt, simuliert AIDSAFE eine Diskussion zwischen mehreren Agenten, die jeweils unterschiedliche Perspektiven auf die Sicherheitsrichtlinien einnehmen. Durch diesen Austausch entsteht ein detaillierter und umfassender CoT, der die verschiedenen Aspekte der Sicherheitsrichtlinien beleuchtet.

Ein weiterer wichtiger Bestandteil von AIDSAFE ist die Datenverfeinerung. In dieser Phase werden repetitive, redundante und irreführende Gedanken aus dem generierten CoT entfernt. Dadurch wird die Qualität der Daten verbessert und die Grundlage für ein effektives Supervised Fine-Tuning (SFT) geschaffen.

Zusätzliche Strategien für verbessertes Alignment

Um den Bedarf an Präferenzdaten in Alignment-Phasen, wie z.B. beim Direct Preference Optimization (DPO) Training, zu decken, haben die Forscher eine ergänzende Methode entwickelt. Diese nutzt sogenannte "Belief Augmentation", um unterschiedliche ausgewählte und abgelehnte CoT-Beispiele zu erstellen. Dadurch lernt das Modell, welche Argumentationen zu sicheren und welche zu unsicheren Antworten führen.

Evaluierung und Ergebnisse

Evaluierungen zeigen, dass mit AIDSAFE generierte CoTs eine höhere Richtlinienkonformität und Argumentationsqualität aufweisen. Das Fine-Tuning von Open-Source-LLMs mit diesen Daten führt zu einer signifikanten Verbesserung der Sicherheitsgeneralisierung und Jailbreak-Robustheit, ohne die Nutzbarkeit und Over-Refusal-Genauigkeit negativ zu beeinflussen.

Ausblick und Bedeutung für die KI-Entwicklung

AIDSAFE stellt einen wichtigen Schritt in Richtung sicherere und robustere LLMs dar. Die agentenbasierte Datengenerierung ermöglicht die Erstellung von hochwertigen Trainingsdaten, die die komplexen Anforderungen des Safety Reasonings erfüllen. Durch die Kombination von Multi-Agenten-Deliberation und Datenverfeinerung bietet AIDSAFE ein vielversprechendes Werkzeug für die Entwicklung von KI-Systemen, die sowohl leistungsstark als auch sicher sind. Die frei verfügbaren AIDSAFE-Datensätze auf Hugging Face ermöglichen es Forschern und Entwicklern weltweit, auf diesen Fortschritten aufzubauen und die Sicherheitsaspekte von LLMs weiter zu verbessern.

Bibliography: Kumarage, T., Mehrabi, N., Ramakrishna, A., Zhao, X., Zemel, R., Chang, K., ... & Gupta, R. (2025). Towards Safety Reasoning in LLMs: AI-agentic Deliberation for Policy-embedded CoT Data Creation. arXiv preprint arXiv:2505.21784. https://arxiv.org/abs/2505.21784 https://arxiv.org/pdf/2505.21784 https://x.com/SciFi/status/1928066963273621813 https://huggingface.co/papers?q=SciSafetyBench https://paperreading.club/page?id=310559 https://2025.aclweb.org/program/find_papers/ https://github.com/Xuchen-Li/llm-arxiv-daily https://openai.com/index/deliberative-alignment/ https://github.com/tmgthb/Autonomous-Agents