Neue Sicherheitsansätze zur Verhinderung von Jailbreaks bei KI-Modellen

Kategorien:

No items found.

Freigegeben:

February 7, 2025

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Neue Sicherheitsmethode von Anthropic soll KI-Modelle vor Jailbreaks schützen

Das KI-Unternehmen Anthropic hat eine neue Sicherheitsmethode namens "Constitutional Classifiers" entwickelt, um KI-Sprachmodelle vor Manipulationsversuchen zu schützen. Diese Technologie zielt speziell auf sogenannte "Universal Jailbreaks" ab – Eingaben, die darauf ausgelegt sind, systematisch alle Sicherheitsmaßnahmen zu umgehen und das KI-Modell zu unerwünschten Antworten zu verleiten.

Um die Wirksamkeit des Systems zu testen, führte Anthropic über zwei Monate hinweg einen Wettbewerb mit 183 Teilnehmern durch. Diese versuchten, das KI-Modell Claude 3.5 dazu zu bringen, zehn verbotene Fragen zu beantworten. Trotz eines Preisgeldes von 15.000 US-Dollar und rund 3.000 Teststunden gelang es keinem der Teilnehmer, alle Sicherheitsmaßnahmen zu überwinden.

Anfängliche Herausforderungen und Verbesserungen

Die erste Version der "Constitutional Classifiers" wies zwei wesentliche Nachteile auf: Sie stufte zu viele harmlose Anfragen als gefährlich ein und benötigte zu viel Rechenleistung. Eine verbesserte Version behob diese Probleme, wie automatisierte Tests mit 10.000 Jailbreak-Versuchen zeigten. Dennoch bleiben einige Herausforderungen bestehen.

Die Tests ergaben, dass ein ungeschütztes Claude-Modell 86 Prozent der Manipulationsversuche zuließ, während die geschützte Version mehr als 95 Prozent blockierte. Das System stufte lediglich zusätzliche 0,38 Prozent der harmlosen Anfragen fälschlicherweise als gefährlich ein, benötigt aber immer noch 23,7 Prozent mehr Rechenleistung.

Funktionsweise der "Constitutional Classifiers"

Das Sicherheitssystem basiert auf vordefinierten Regeln darüber, welche Inhalte erlaubt oder verboten sind. Anhand dieser "Verfassung" erstellt es synthetische Trainingsbeispiele in verschiedenen Sprachen und Stilen. Diese Beispiele trainieren dann die Klassifikatoren, verdächtige Eingaben zu erkennen.

Die Forscher räumen ein, dass das System nicht gegen jeden universellen Jailbreak immun ist und neue Angriffsmethoden entstehen könnten, mit denen es nicht umgehen kann. Daher empfiehlt Anthropic, es zusammen mit anderen Sicherheitsmaßnahmen zu verwenden.

Öffentliche Testphase für Sicherheitsexperten

Um die Robustheit des Systems weiter zu testen, hat Anthropic eine öffentliche Demo-Version veröffentlicht. Sicherheitsexperten konnten vom 3. bis 10. Februar 2025 versuchen, das System zu überlisten. Die Ergebnisse sollen in einem Update veröffentlicht werden.

Die Entwicklung von robusten Sicherheitsmechanismen ist entscheidend für den verantwortungsvollen Einsatz von KI-Sprachmodellen. Anthropics "Constitutional Classifiers" stellen einen vielversprechenden Ansatz dar, um Missbrauch zu verhindern und die Sicherheit von KI-Systemen zu gewährleisten. Die weitere Forschung und Entwicklung in diesem Bereich wird entscheidend sein, um mit den sich ständig weiterentwickelnden Bedrohungen Schritt zu halten.

Bibliography: https://venturebeat.com/security/anthropic-claims-new-ai-security-method-blocks-95-of-jailbreaks-invites-red-teamers-to-try/ https://the-decoder.com/anthropics-ai-security-system-blocks-95-of-jailbreak-attempts-in-tests/ https://www.anthropic.com/news/constitutional-classifiers https://cybernews.com/security/anthropic-system-guarding-ai-models-against-jailbreaks/ https://www.techzine.eu/news/applications/128391/anthropic-challenges-users-to-jailbreak-ai-model/ https://arstechnica.com/ai/2025/02/anthropic-dares-you-to-jailbreak-its-new-ai-model/ https://www.marktechpost.com/2025/02/03/anthropic-introduces-constitutional-classifiers-a-measured-ai-approach-to-defending-against-universal-jailbreaks/ https://bgr.com/tech/anthropic-dares-you-to-try-to-jailbreak-claude-ai/ https://opentools.ai/news/anthropic-unveils-revolutionary-constitutional-classifiers-to-combat-ai-jailbreaking