Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Der Kampf gegen unerwünschte Ausgaben von KI-Chatbots ist eine ständige Herausforderung für Entwickler. Anthropic, ein US-amerikanisches KI-Unternehmen, hat nun ein neues Filtersystem für sein Sprachmodell Claude vorgestellt, das genau diese Problematik angehen soll. Im Fokus stehen dabei sogenannte „Jailbreaks“, also Versuche, die Sicherheitsmechanismen des Chatbots zu umgehen und ihn zu Antworten zu verleiten, die gegen die Nutzungsbedingungen verstoßen.
Das neue System setzt auf sogenannte „Constitutional Classifiers“. Diese bauen auf Anthropics bestehendem „Constitutional AI“-Ansatz auf, der Regeln in natürlicher Sprache verwendet, um zu definieren, welche Anfragen zulässig sind und welche nicht. Für die Entwicklung des Filtersystems wurden 10.000 Test-Prompts generiert, die sowohl bekannte Jailbreak-Methoden als auch potenziell neue Umgehungsstrategien abdecken. Die Tests zeigen eine deutliche Verbesserung: Während die ungeschützte Version von Claude 3.5 Sonnet nur 14 Prozent der unzulässigen Anfragen blockierte, erreichte die gefilterte Version eine Blockierungsrate von 95 Prozent.
Die Implementierung des Filtersystems hat jedoch auch Auswirkungen auf die Performance. Anthropic stellte einen Anstieg des Rechenaufwands um 23,7 Prozent fest. Zusätzlich kommt es zu einer erhöhten Anzahl an „False Positives“, also fälschlicherweise blockierten, eigentlich zulässigen Anfragen. Diese Rate stieg zwar um 0,38 Prozent auf knapp 1,5 Prozent, dieser Unterschied wird jedoch statistisch als nicht signifikant eingestuft.
Um die Robustheit des Filtersystems weiter zu prüfen, hat Anthropic ein Bug-Bounty-Programm auf der Plattform HackerOne ins Leben gerufen. Experten wurden dazu aufgerufen, Schwachstellen im System zu finden und einen universellen Jailbreak zu entwickeln. Trotz intensiver Bemühungen der Teilnehmer konnten in über 3000 Stunden nur für fünf von zehn vorgegebenen, verbotenen Fragen brauchbare Antworten vom Chatbot generiert werden.
Parallel dazu läuft ein öffentlicher Test bis zum 10. Februar 2025. Nutzer sind eingeladen, das Filtersystem auf die Probe zu stellen und etwaige Schwachstellen über ein Feedback-Formular zu melden. Anthropic erhofft sich durch diesen Stresstest unter Realbedingungen weitere Erkenntnisse zur Optimierung des Systems. Die gesammelten Daten sollen die Ergebnisse der internen Tests und des Bug-Bounty-Programms ergänzen.
Die Entwicklung robuster Sicherheitsmechanismen für KI-Modelle ist von entscheidender Bedeutung, um Missbrauch und die Generierung schädlicher Inhalte zu verhindern. Anthropics Ansatz mit den Constitutional Classifiers und die Einbindung der Community durch Bug-Bounty-Programme und öffentliche Tests stellen einen wichtigen Schritt in diese Richtung dar. Die Ergebnisse dieser Bemühungen werden maßgeblich dazu beitragen, die Sicherheit und Zuverlässigkeit von KI-Systemen in der Zukunft zu gewährleisten.
Bibliographie: - https://www.heise.de/news/Anthropic-Nutzer-sollen-Jailbreak-Schutz-fuer-KI-Chatbot-auf-die-Probe-stellen-10269014.html - https://the-decoder.de/anthropic-testet-neue-ki-sicherheitstechnik-gegen-jailbreaks/ - https://docs.anthropic.com/de/docs/test-and-evaluate/strengthen-guardrails/mitigate-jailbreaks - https://stadt-bremerhaven.de/anthropic-will-mit-neuen-sicherheitsmechanismen-ki-modelle-vor-jailbreaks-schuetzen/ - https://www.trendingtopics.eu/anthropic-bekaempft-gefaehrliche-outputs-und-jailbreaks-mit-neuem-filtersystem/ - https://www.heise.de/ix - https://www.golem.de/news/chatgpt-bard-claude-forscher-machen-ki-chatbots-zu-rebellischen-regelbrechern-2307-176260.html - https://www.it-boltwise.de/anthropic-setzt-auf-menschliche-kommunikation-in-bewerbungen.html - https://tarnkappe.info/artikel/jailbreaks/bon-jailbreak-technik-black-box-algorithmus-hebelt-ki-systeme-aus-306497.htmlLernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen