Jetzt reinschauen – neue Umgebung live

Anthropic verbessert Sicherheitssystem für KI-Modell Claude gegen Jailbreaks

Kategorien:
No items found.
Freigegeben:
February 10, 2025

Artikel jetzt als Podcast anhören

Anthropic rüstet KI-Modell Claude gegen Jailbreaks auf

Der Kampf gegen unerwünschte Ausgaben von KI-Chatbots ist eine ständige Herausforderung für Entwickler. Anthropic, ein US-amerikanisches KI-Unternehmen, hat nun ein neues Filtersystem für sein Sprachmodell Claude vorgestellt, das genau diese Problematik angehen soll. Im Fokus stehen dabei sogenannte „Jailbreaks“, also Versuche, die Sicherheitsmechanismen des Chatbots zu umgehen und ihn zu Antworten zu verleiten, die gegen die Nutzungsbedingungen verstoßen.

Constitutional Classifiers als Schutzschild

Das neue System setzt auf sogenannte „Constitutional Classifiers“. Diese bauen auf Anthropics bestehendem „Constitutional AI“-Ansatz auf, der Regeln in natürlicher Sprache verwendet, um zu definieren, welche Anfragen zulässig sind und welche nicht. Für die Entwicklung des Filtersystems wurden 10.000 Test-Prompts generiert, die sowohl bekannte Jailbreak-Methoden als auch potenziell neue Umgehungsstrategien abdecken. Die Tests zeigen eine deutliche Verbesserung: Während die ungeschützte Version von Claude 3.5 Sonnet nur 14 Prozent der unzulässigen Anfragen blockierte, erreichte die gefilterte Version eine Blockierungsrate von 95 Prozent.

Leistungseinbußen und False Positives

Die Implementierung des Filtersystems hat jedoch auch Auswirkungen auf die Performance. Anthropic stellte einen Anstieg des Rechenaufwands um 23,7 Prozent fest. Zusätzlich kommt es zu einer erhöhten Anzahl an „False Positives“, also fälschlicherweise blockierten, eigentlich zulässigen Anfragen. Diese Rate stieg zwar um 0,38 Prozent auf knapp 1,5 Prozent, dieser Unterschied wird jedoch statistisch als nicht signifikant eingestuft.

Bug-Bounty-Programm und öffentlicher Test

Um die Robustheit des Filtersystems weiter zu prüfen, hat Anthropic ein Bug-Bounty-Programm auf der Plattform HackerOne ins Leben gerufen. Experten wurden dazu aufgerufen, Schwachstellen im System zu finden und einen universellen Jailbreak zu entwickeln. Trotz intensiver Bemühungen der Teilnehmer konnten in über 3000 Stunden nur für fünf von zehn vorgegebenen, verbotenen Fragen brauchbare Antworten vom Chatbot generiert werden.

Parallel dazu läuft ein öffentlicher Test bis zum 10. Februar 2025. Nutzer sind eingeladen, das Filtersystem auf die Probe zu stellen und etwaige Schwachstellen über ein Feedback-Formular zu melden. Anthropic erhofft sich durch diesen Stresstest unter Realbedingungen weitere Erkenntnisse zur Optimierung des Systems. Die gesammelten Daten sollen die Ergebnisse der internen Tests und des Bug-Bounty-Programms ergänzen.

KI-Sicherheit im Fokus

Die Entwicklung robuster Sicherheitsmechanismen für KI-Modelle ist von entscheidender Bedeutung, um Missbrauch und die Generierung schädlicher Inhalte zu verhindern. Anthropics Ansatz mit den Constitutional Classifiers und die Einbindung der Community durch Bug-Bounty-Programme und öffentliche Tests stellen einen wichtigen Schritt in diese Richtung dar. Die Ergebnisse dieser Bemühungen werden maßgeblich dazu beitragen, die Sicherheit und Zuverlässigkeit von KI-Systemen in der Zukunft zu gewährleisten.

Bibliographie: - https://www.heise.de/news/Anthropic-Nutzer-sollen-Jailbreak-Schutz-fuer-KI-Chatbot-auf-die-Probe-stellen-10269014.html - https://the-decoder.de/anthropic-testet-neue-ki-sicherheitstechnik-gegen-jailbreaks/ - https://docs.anthropic.com/de/docs/test-and-evaluate/strengthen-guardrails/mitigate-jailbreaks - https://stadt-bremerhaven.de/anthropic-will-mit-neuen-sicherheitsmechanismen-ki-modelle-vor-jailbreaks-schuetzen/ - https://www.trendingtopics.eu/anthropic-bekaempft-gefaehrliche-outputs-und-jailbreaks-mit-neuem-filtersystem/ - https://www.heise.de/ix - https://www.golem.de/news/chatgpt-bard-claude-forscher-machen-ki-chatbots-zu-rebellischen-regelbrechern-2307-176260.html - https://www.it-boltwise.de/anthropic-setzt-auf-menschliche-kommunikation-in-bewerbungen.html - https://tarnkappe.info/artikel/jailbreaks/bon-jailbreak-technik-black-box-algorithmus-hebelt-ki-systeme-aus-306497.html
Was bedeutet das?

Wie können wir Ihnen heute helfen?

Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
Herzlichen Dank! Deine Nachricht ist eingegangen!
Oops! Du hast wohl was vergessen, versuche es nochmal.