Anthropic verbessert Sicherheitssystem für KI-Modell Claude gegen Jailbreaks

Kategorien:

No items found.

Freigegeben:

February 10, 2025

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Anthropic rüstet KI-Modell Claude gegen Jailbreaks auf

Der Kampf gegen unerwünschte Ausgaben von KI-Chatbots ist eine ständige Herausforderung für Entwickler. Anthropic, ein US-amerikanisches KI-Unternehmen, hat nun ein neues Filtersystem für sein Sprachmodell Claude vorgestellt, das genau diese Problematik angehen soll. Im Fokus stehen dabei sogenannte „Jailbreaks“, also Versuche, die Sicherheitsmechanismen des Chatbots zu umgehen und ihn zu Antworten zu verleiten, die gegen die Nutzungsbedingungen verstoßen.

Constitutional Classifiers als Schutzschild

Das neue System setzt auf sogenannte „Constitutional Classifiers“. Diese bauen auf Anthropics bestehendem „Constitutional AI“-Ansatz auf, der Regeln in natürlicher Sprache verwendet, um zu definieren, welche Anfragen zulässig sind und welche nicht. Für die Entwicklung des Filtersystems wurden 10.000 Test-Prompts generiert, die sowohl bekannte Jailbreak-Methoden als auch potenziell neue Umgehungsstrategien abdecken. Die Tests zeigen eine deutliche Verbesserung: Während die ungeschützte Version von Claude 3.5 Sonnet nur 14 Prozent der unzulässigen Anfragen blockierte, erreichte die gefilterte Version eine Blockierungsrate von 95 Prozent.

Leistungseinbußen und False Positives

Die Implementierung des Filtersystems hat jedoch auch Auswirkungen auf die Performance. Anthropic stellte einen Anstieg des Rechenaufwands um 23,7 Prozent fest. Zusätzlich kommt es zu einer erhöhten Anzahl an „False Positives“, also fälschlicherweise blockierten, eigentlich zulässigen Anfragen. Diese Rate stieg zwar um 0,38 Prozent auf knapp 1,5 Prozent, dieser Unterschied wird jedoch statistisch als nicht signifikant eingestuft.

Bug-Bounty-Programm und öffentlicher Test

Um die Robustheit des Filtersystems weiter zu prüfen, hat Anthropic ein Bug-Bounty-Programm auf der Plattform HackerOne ins Leben gerufen. Experten wurden dazu aufgerufen, Schwachstellen im System zu finden und einen universellen Jailbreak zu entwickeln. Trotz intensiver Bemühungen der Teilnehmer konnten in über 3000 Stunden nur für fünf von zehn vorgegebenen, verbotenen Fragen brauchbare Antworten vom Chatbot generiert werden.

Parallel dazu läuft ein öffentlicher Test bis zum 10. Februar 2025. Nutzer sind eingeladen, das Filtersystem auf die Probe zu stellen und etwaige Schwachstellen über ein Feedback-Formular zu melden. Anthropic erhofft sich durch diesen Stresstest unter Realbedingungen weitere Erkenntnisse zur Optimierung des Systems. Die gesammelten Daten sollen die Ergebnisse der internen Tests und des Bug-Bounty-Programms ergänzen.

KI-Sicherheit im Fokus

Die Entwicklung robuster Sicherheitsmechanismen für KI-Modelle ist von entscheidender Bedeutung, um Missbrauch und die Generierung schädlicher Inhalte zu verhindern. Anthropics Ansatz mit den Constitutional Classifiers und die Einbindung der Community durch Bug-Bounty-Programme und öffentliche Tests stellen einen wichtigen Schritt in diese Richtung dar. Die Ergebnisse dieser Bemühungen werden maßgeblich dazu beitragen, die Sicherheit und Zuverlässigkeit von KI-Systemen in der Zukunft zu gewährleisten.

Bibliographie: - https://www.heise.de/news/Anthropic-Nutzer-sollen-Jailbreak-Schutz-fuer-KI-Chatbot-auf-die-Probe-stellen-10269014.html - https://the-decoder.de/anthropic-testet-neue-ki-sicherheitstechnik-gegen-jailbreaks/ - https://docs.anthropic.com/de/docs/test-and-evaluate/strengthen-guardrails/mitigate-jailbreaks - https://stadt-bremerhaven.de/anthropic-will-mit-neuen-sicherheitsmechanismen-ki-modelle-vor-jailbreaks-schuetzen/ - https://www.trendingtopics.eu/anthropic-bekaempft-gefaehrliche-outputs-und-jailbreaks-mit-neuem-filtersystem/ - https://www.heise.de/ix - https://www.golem.de/news/chatgpt-bard-claude-forscher-machen-ki-chatbots-zu-rebellischen-regelbrechern-2307-176260.html - https://www.it-boltwise.de/anthropic-setzt-auf-menschliche-kommunikation-in-bewerbungen.html - https://tarnkappe.info/artikel/jailbreaks/bon-jailbreak-technik-black-box-algorithmus-hebelt-ki-systeme-aus-306497.html