Der Kampf gegen unerwünschte Ausgaben von KI-Chatbots ist eine ständige Herausforderung für Entwickler. Anthropic, ein US-amerikanisches KI-Unternehmen, hat nun ein neues Filtersystem für sein Sprachmodell Claude vorgestellt, das genau diese Problematik angehen soll. Im Fokus stehen dabei sogenannte „Jailbreaks“, also Versuche, die Sicherheitsmechanismen des Chatbots zu umgehen und ihn zu Antworten zu verleiten, die gegen die Nutzungsbedingungen verstoßen.
Das neue System setzt auf sogenannte „Constitutional Classifiers“. Diese bauen auf Anthropics bestehendem „Constitutional AI“-Ansatz auf, der Regeln in natürlicher Sprache verwendet, um zu definieren, welche Anfragen zulässig sind und welche nicht. Für die Entwicklung des Filtersystems wurden 10.000 Test-Prompts generiert, die sowohl bekannte Jailbreak-Methoden als auch potenziell neue Umgehungsstrategien abdecken. Die Tests zeigen eine deutliche Verbesserung: Während die ungeschützte Version von Claude 3.5 Sonnet nur 14 Prozent der unzulässigen Anfragen blockierte, erreichte die gefilterte Version eine Blockierungsrate von 95 Prozent.
Die Implementierung des Filtersystems hat jedoch auch Auswirkungen auf die Performance. Anthropic stellte einen Anstieg des Rechenaufwands um 23,7 Prozent fest. Zusätzlich kommt es zu einer erhöhten Anzahl an „False Positives“, also fälschlicherweise blockierten, eigentlich zulässigen Anfragen. Diese Rate stieg zwar um 0,38 Prozent auf knapp 1,5 Prozent, dieser Unterschied wird jedoch statistisch als nicht signifikant eingestuft.
Um die Robustheit des Filtersystems weiter zu prüfen, hat Anthropic ein Bug-Bounty-Programm auf der Plattform HackerOne ins Leben gerufen. Experten wurden dazu aufgerufen, Schwachstellen im System zu finden und einen universellen Jailbreak zu entwickeln. Trotz intensiver Bemühungen der Teilnehmer konnten in über 3000 Stunden nur für fünf von zehn vorgegebenen, verbotenen Fragen brauchbare Antworten vom Chatbot generiert werden.
Parallel dazu läuft ein öffentlicher Test bis zum 10. Februar 2025. Nutzer sind eingeladen, das Filtersystem auf die Probe zu stellen und etwaige Schwachstellen über ein Feedback-Formular zu melden. Anthropic erhofft sich durch diesen Stresstest unter Realbedingungen weitere Erkenntnisse zur Optimierung des Systems. Die gesammelten Daten sollen die Ergebnisse der internen Tests und des Bug-Bounty-Programms ergänzen.
Die Entwicklung robuster Sicherheitsmechanismen für KI-Modelle ist von entscheidender Bedeutung, um Missbrauch und die Generierung schädlicher Inhalte zu verhindern. Anthropics Ansatz mit den Constitutional Classifiers und die Einbindung der Community durch Bug-Bounty-Programme und öffentliche Tests stellen einen wichtigen Schritt in diese Richtung dar. Die Ergebnisse dieser Bemühungen werden maßgeblich dazu beitragen, die Sicherheit und Zuverlässigkeit von KI-Systemen in der Zukunft zu gewährleisten.
Bibliographie: - https://www.heise.de/news/Anthropic-Nutzer-sollen-Jailbreak-Schutz-fuer-KI-Chatbot-auf-die-Probe-stellen-10269014.html - https://the-decoder.de/anthropic-testet-neue-ki-sicherheitstechnik-gegen-jailbreaks/ - https://docs.anthropic.com/de/docs/test-and-evaluate/strengthen-guardrails/mitigate-jailbreaks - https://stadt-bremerhaven.de/anthropic-will-mit-neuen-sicherheitsmechanismen-ki-modelle-vor-jailbreaks-schuetzen/ - https://www.trendingtopics.eu/anthropic-bekaempft-gefaehrliche-outputs-und-jailbreaks-mit-neuem-filtersystem/ - https://www.heise.de/ix - https://www.golem.de/news/chatgpt-bard-claude-forscher-machen-ki-chatbots-zu-rebellischen-regelbrechern-2307-176260.html - https://www.it-boltwise.de/anthropic-setzt-auf-menschliche-kommunikation-in-bewerbungen.html - https://tarnkappe.info/artikel/jailbreaks/bon-jailbreak-technik-black-box-algorithmus-hebelt-ki-systeme-aus-306497.htmlEntdecken Sie die Vorteile gegenüber ChatGPT Plus
Sie nutzen bereits ChatGPT Plus? Das ist ein guter Anfang! Aber stellen Sie sich vor, Sie hätten Zugang zu allen führenden KI-Modellen weltweit, könnten mit Ihren eigenen Dokumenten arbeiten und nahtlos im Team kollaborieren.
Die professionelle KI-Plattform für Unternehmen – leistungsstärker, flexibler und sicherer als ChatGPT Plus. Mit über 50 Modellen, DSGVO-konformer Infrastruktur und tiefgreifender Integration in Unternehmensprozesse.
❌ Kein strukturierter Dokumentenvergleich
❌ Keine Bearbeitung im Dokumentkontext
❌ Keine Integration von Unternehmenswissen
✅ Gezielter Dokumentenvergleich mit Custom-Prompts
✅ Kontextbewusste Textbearbeitung im Editor
✅ Wissensbasierte Analyse & Zusammenfassungen
Erstellen Sie leistungsstarke Wissensdatenbanken aus Ihren Unternehmensdokumenten.Mindverse Studio verknüpft diese direkt mit der KI – für präzise, kontextbezogene Antworten auf Basis Ihres spezifischen Know-hows.DSGVO-konform, transparent und jederzeit nachvollziehbar.
❌ Nur ein Modellanbieter (OpenAI)
❌ Keine Modellauswahl pro Use Case
❌ Keine zentrale Modellsteuerung für Teams
✅ Zugriff auf über 50 verschiedene KI-Modelle
✅ Modellauswahl pro Prompt oder Assistent
✅ Zentrale Steuerung auf Organisationsebene
❌ Keine echte Teamkollaboration
❌ Keine Rechte- oder Rollenverteilung
❌ Keine zentrale Steuerung oder Nachvollziehbarkeit
✅ Teamübergreifende Bearbeitung in Echtzeit
✅ Granulare Rechte- und Freigabeverwaltung
✅ Zentrale Steuerung & Transparenz auf Organisationsebene
Nutzen Sie Mindverse Studio als zentrale Plattform für abteilungsübergreifende Zusammenarbeit.Teilen Sie Wissen, erstellen Sie gemeinsame Workflows und integrieren Sie KI nahtlos in Ihre täglichen Prozesse – sicher, skalierbar und effizient.Mit granularen Rechten, transparenter Nachvollziehbarkeit und Echtzeit-Kollaboration.
Sehen Sie Mindverse Studio in Aktion. Buchen Sie eine persönliche 30-minütige Demo.
🎯 Kostenlose Demo buchenLernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen