Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Das KI-Unternehmen Anthropic hat eine neue Sicherheitsmethode namens "Constitutional Classifiers" entwickelt, um KI-Sprachmodelle vor Manipulationsversuchen zu schützen. Diese Technologie zielt speziell auf sogenannte "Universal Jailbreaks" ab – Eingaben, die darauf ausgelegt sind, systematisch alle Sicherheitsmaßnahmen zu umgehen und das KI-Modell zu unerwünschten Antworten zu verleiten.
Um die Wirksamkeit des Systems zu testen, führte Anthropic über zwei Monate hinweg einen Wettbewerb mit 183 Teilnehmern durch. Diese versuchten, das KI-Modell Claude 3.5 dazu zu bringen, zehn verbotene Fragen zu beantworten. Trotz eines Preisgeldes von 15.000 US-Dollar und rund 3.000 Teststunden gelang es keinem der Teilnehmer, alle Sicherheitsmaßnahmen zu überwinden.
Die erste Version der "Constitutional Classifiers" wies zwei wesentliche Nachteile auf: Sie stufte zu viele harmlose Anfragen als gefährlich ein und benötigte zu viel Rechenleistung. Eine verbesserte Version behob diese Probleme, wie automatisierte Tests mit 10.000 Jailbreak-Versuchen zeigten. Dennoch bleiben einige Herausforderungen bestehen.
Die Tests ergaben, dass ein ungeschütztes Claude-Modell 86 Prozent der Manipulationsversuche zuließ, während die geschützte Version mehr als 95 Prozent blockierte. Das System stufte lediglich zusätzliche 0,38 Prozent der harmlosen Anfragen fälschlicherweise als gefährlich ein, benötigt aber immer noch 23,7 Prozent mehr Rechenleistung.
Das Sicherheitssystem basiert auf vordefinierten Regeln darüber, welche Inhalte erlaubt oder verboten sind. Anhand dieser "Verfassung" erstellt es synthetische Trainingsbeispiele in verschiedenen Sprachen und Stilen. Diese Beispiele trainieren dann die Klassifikatoren, verdächtige Eingaben zu erkennen.
Die Forscher räumen ein, dass das System nicht gegen jeden universellen Jailbreak immun ist und neue Angriffsmethoden entstehen könnten, mit denen es nicht umgehen kann. Daher empfiehlt Anthropic, es zusammen mit anderen Sicherheitsmaßnahmen zu verwenden.
Um die Robustheit des Systems weiter zu testen, hat Anthropic eine öffentliche Demo-Version veröffentlicht. Sicherheitsexperten konnten vom 3. bis 10. Februar 2025 versuchen, das System zu überlisten. Die Ergebnisse sollen in einem Update veröffentlicht werden.
Die Entwicklung von robusten Sicherheitsmechanismen ist entscheidend für den verantwortungsvollen Einsatz von KI-Sprachmodellen. Anthropics "Constitutional Classifiers" stellen einen vielversprechenden Ansatz dar, um Missbrauch zu verhindern und die Sicherheit von KI-Systemen zu gewährleisten. Die weitere Forschung und Entwicklung in diesem Bereich wird entscheidend sein, um mit den sich ständig weiterentwickelnden Bedrohungen Schritt zu halten.
Bibliography: https://venturebeat.com/security/anthropic-claims-new-ai-security-method-blocks-95-of-jailbreaks-invites-red-teamers-to-try/ https://the-decoder.com/anthropics-ai-security-system-blocks-95-of-jailbreak-attempts-in-tests/ https://www.anthropic.com/news/constitutional-classifiers https://cybernews.com/security/anthropic-system-guarding-ai-models-against-jailbreaks/ https://www.techzine.eu/news/applications/128391/anthropic-challenges-users-to-jailbreak-ai-model/ https://arstechnica.com/ai/2025/02/anthropic-dares-you-to-jailbreak-its-new-ai-model/ https://www.marktechpost.com/2025/02/03/anthropic-introduces-constitutional-classifiers-a-measured-ai-approach-to-defending-against-universal-jailbreaks/ https://bgr.com/tech/anthropic-dares-you-to-try-to-jailbreak-claude-ai/ https://opentools.ai/news/anthropic-unveils-revolutionary-constitutional-classifiers-to-combat-ai-jailbreakingLernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen