Neue Ansätze zur Sicherheitsbewertung von Large Language Models unter realen Angriffsbedingungen

Kategorien:

No items found.

Freigegeben:

February 2, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Die vorliegende Analyse beleuchtet die Herausforderungen bei der Bewertung der Sicherheit von Large Language Models (LLMs) unter realen Angriffsbedingungen.
Herkömmliche Einzelversuchs- oder Low-Budget-Evaluierungen unterschätzen das tatsächliche Risiko erheblich, da Angreifer oft wiederholte Anfragen nutzen.
Eine neue Methode namens SABER (Scaling-aware Best-of-N Estimation of Risk) wird vorgestellt, die die "Best-of-N"-Sampling-Strategie berücksichtigt, um die Jailbreak-Anfälligkeit von LLMs besser zu modellieren.
SABER verwendet eine Beta-Verteilung zur Modellierung von Erfolgsraten auf Sample-Ebene und leitet ein analytisches Skalierungsgesetz ab, das eine zuverlässige Extrapolation von Angriffs-Erfolgsraten bei großen N-Werten aus Messungen mit kleinem Budget ermöglicht.
Die Forschungsergebnisse zeigen, dass Modelle, die in Standardtests als robust erscheinen, unter parallelem Angriffs-Druck eine schnelle, nicht-lineare Risiko-Amplifikation erfahren können.
SABER reduziert den Schätzfehler der Angriffs-Erfolgsrate erheblich (um 86,2 % bei ASR@1000 mit nur 100 Samples im Vergleich zu einer Baseline).
Diese Methodik bietet einen kostengünstigen und skalierbaren Ansatz für eine realistischere Sicherheitsbewertung von LLMs.

Die Sicherheit von Large Language Models (LLMs) ist ein zentrales Anliegen in der Entwicklung und Implementierung von KI-Systemen. Eine aktuelle Studie beleuchtet die Grenzen traditioneller Sicherheitsbewertungsmethoden und stellt einen neuen Ansatz vor, der das tatsächliche Angriffsrisiko unter realen Bedingungen genauer einschätzen soll. Die Forschung konzentriert sich auf die Herausforderungen, die sich aus der "Best-of-N"-Sampling-Strategie ergeben, bei der Angreifer wiederholt Anfragen an ein Modell senden, um schädliche Antworten zu provozieren.

Unterschätzung realer Angriffsrisiken

Die gängige Praxis, LLMs unter Einzelversuchs- oder Low-Budget-Angriffen auf ihre Sicherheit zu prüfen, birgt eine inhärente Schwäche: Sie unterschätzt das Risiko in realen Szenarien erheblich. In der Praxis nutzen Angreifer häufig gross angelegte parallele Sampling-Verfahren, um ein Modell wiederholt abzufragen, bis eine unerwünschte oder schädliche Antwort generiert wird. Aktuelle Studien belegen, dass die Angriffs-Erfolgsrate mit der Anzahl der Versuche ansteigt. Bisher fehlten jedoch prinzipiengeleitete Methoden, um dieses grossflächige, adversarielle Risiko präzise vorherzusagen.

SABER: Ein neuer Ansatz zur Risikobewertung

Um dieser Problematik zu begegnen, wurde eine innovative Methode namens SABER (Scaling-aware Best-of-N Estimation of Risk) entwickelt. SABER zielt darauf ab, die Anfälligkeit von LLMs für "Jailbreaks" unter "Best-of-N"-Sampling zu modellieren. Der Kernansatz von SABER liegt in der Modellierung der Erfolgs-Wahrscheinlichkeiten auf Sample-Ebene mittels einer Beta-Verteilung, die als konjugierte Prior für die Bernoulli-Verteilung dient. Auf dieser Grundlage leitet SABER ein analytisches Skalierungsgesetz ab, das eine zuverlässige Extrapolation von Angriffs-Erfolgsraten (Attack Success Rates, ASR) für grosse N-Werte aus Messungen mit geringem Budget ermöglicht.

Signifikante Reduzierung des Schätzfehlers

Die Effektivität von SABER wurde in Experimenten demonstriert. Mit lediglich 100 Samples konnte der Anker-Schätzer von SABER die ASR bei 1000 Versuchen (ASR@1000) mit einem mittleren absoluten Fehler von nur 1,66 vorhersagen. Dies steht im deutlichen Kontrast zu einem Schätzfehler von 12,04 bei einer Baseline-Methode, was einer Reduzierung des Schätzfehlers um 86,2 % entspricht. Diese Ergebnisse unterstreichen die Fähigkeit von SABER, präzise Risikobewertungen mit deutlich geringerem Aufwand zu liefern.

Implikationen für die LLM-Sicherheit

Die Forschungsergebnisse von SABER offenbaren heterogene Risiko-Skalierungsprofile bei LLMs. Sie zeigen, dass Modelle, die unter Standard-Evaluierungsbedingungen als robust eingestuft werden, unter parallelem adversariellem Druck eine schnelle und nicht-lineare Verstärkung des Risikos erfahren können. Dies deutet darauf hin, dass eine oberflächliche Robustheit täuschen kann und dass umfassendere, realitätsnahe Tests unerlässlich sind.

Kostengünstige und skalierbare Methodik

Die vorgestellte Methodik bietet einen kostengünstigen und skalierbaren Ansatz für eine realistischere Sicherheitsbewertung von LLMs. Durch die Möglichkeit, genaue Vorhersagen über die Angriffs-Erfolgsraten bei hohen N-Werten auf Basis von Messungen mit geringem Budget zu treffen, können Unternehmen die Sicherheitsaudits ihrer LLMs effizienter gestalten. Dies ist besonders relevant für B2B-Anwendungen, bei denen die Robustheit und Zuverlässigkeit von KI-Modellen von entscheidender Bedeutung sind.

Zusammenhang mit Best-of-N und Alignment-Strategien

Die "Best-of-N"-Sampling-Strategie ist ein etabliertes Verfahren zur Verbesserung der Ausrichtung von LLMs an menschlichen Präferenzen. Dabei werden N Ausgaben eines Modells generiert und die bevorzugteste ausgewählt. Obwohl diese Methode effektiv ist, kann sie anfällig für "Reward Hacking" sein, bei dem das Modell eine hohe Belohnung erzielt, ohne das gewünschte Ziel zu erreichen. Frühere Arbeiten, wie das Regularized Best-of-N Sampling (RBoN), haben versucht, dieses Problem durch die Einführung von Regularisierungstermen zu mildern.

Die aktuelle Forschung zu SABER baut auf diesen Erkenntnissen auf, indem sie die Auswirkungen von "Best-of-N"-Sampling auf die adversarielle Risikobewertung untersucht. Sie zeigt, dass die Optimierung von Modellen für die "Best-of-N"-Auswahl zwar die gewünschte Leistung verbessert, aber auch neue Vektoren für Angriffe schaffen kann, insbesondere wenn Angreifer diese Strategie replizieren. Die Analyse des Zusammenhangs zwischen "Best-of-N"-Sampling und der KL-Divergenz (Kullback-Leibler-Divergenz) ist hierbei von Bedeutung. Die KL-Divergenz misst, wie stark sich eine erzeugte Verteilung von einer Referenzverteilung unterscheidet. Ein geringer KL-Wert deutet darauf hin, dass die Kernfähigkeiten des Modells erhalten bleiben.

Best-of-N und die Grenzen der KL-Divergenz-Formel

Eine in der Literatur häufig verwendete analytische Formel zur Schätzung der KL-Divergenz für "Best-of-N"-Sampling, nämlich log(n) - (n-1)/n, wurde in einer separaten Studie als ungenau befunden. Es wurde gezeigt, dass diese Formel lediglich eine Obergrenze darstellt und die tatsächliche KL-Divergenz erheblich geringer sein kann. Dies hat weitreichende Implikationen für die Bewertung der Modell-Alignment und des potenziellen Risikos. Die Diskrepanz zwischen der angenommenen und der tatsächlichen KL-Divergenz kann zu einer Unterschätzung der Modell-Robustheit führen, insbesondere wenn die Modell-Ausgaben eine geringe Wahrscheinlichkeit aufweisen.

Die Entwicklung eines neuen Estimators für die KL-Divergenz, der das Verhalten der tatsächlichen Divergenz genauer abbildet, ist daher von grosser Bedeutung. Solche präziseren Schätzungen tragen dazu bei, die Kompromisse zwischen der Erzielung hoher "Win Rates" (Erfolgsraten) und der Aufrechterhaltung der Modellintegrität besser zu verstehen. Für Unternehmen, die LLMs für kritische Anwendungen einsetzen, bedeutet dies eine fundiertere Grundlage für Sicherheitsentscheidungen und die Entwicklung robusterer Systeme.

Ausblick und zukünftige Forschung

Die vorgestellte SABER-Methodik legt den Grundstein für zukünftige Forschungen im Bereich der LLM-Sicherheit. Die Autoren planen, ihren Code und die Evaluierungsskripte nach Veröffentlichung zugänglich zu machen, um die Reproduzierbarkeit und Weiterentwicklung zu fördern. Dies ist ein wichtiger Schritt, um die Sicherheitsbewertung von LLMs an die dynamischen und komplexen Angriffsvektoren in der realen Welt anzupassen.

Für die B2B-Zielgruppe von Mindverse bedeutet dies, dass die kontinuierliche Weiterentwicklung von Tools und Methoden zur präzisen Risikobewertung von LLMs von entscheidender Bedeutung ist. Nur durch eine realistische Einschätzung der Sicherheitslücken können effektive Schutzmassnahmen entwickelt und die Vertrauenswürdigkeit von KI-Anwendungen in geschäftskritischen Umgebungen gewährleistet werden.

Einschränkungen und zukünftige Richtungen

Die vorgestellte Methodik weist, wie jede Forschung, gewisse Einschränkungen auf. Eine der Hauptbeschränkungen ist der erhöhte Rechenaufwand während der Inferenzzeit, auch wenn kein Fine-Tuning der LLMs erforderlich ist. Im Gegensatz dazu verursachen Fine-Tuning-Ansätze einmalige Kosten während des Trainings, eliminieren jedoch den Overhead bei der Inferenz. Ein weiteres Anliegen ist, dass die Methode ein Max-Min-Problem betrachtet. Wenn beispielsweise die Korrelation zwischen der Proxy-Belohnung und der Gold-Belohnung (tatsächliche Belohnung) stark ist, reduziert sich die Leistung aufgrund einer konservativen Auswahl der Ausgabe.

Die Studie enthält keine Analyse darüber, ob die Belohnungs-Störungen die in den Theoremen dargelegten Bedingungen erfüllen. Die Bewertung des Fehlers der Belohnungs- und Nutzenfunktion in Experimenten ist ein zukünftiges Forschungsgebiet. Darüber hinaus erfordert die Auswahl des Parameters β in der aktuellen Einstellung einen Validierungssatz, und die Entwicklung einer automatisierten Methode zur Bestimmung von β ist eine vielversprechende Richtung für weitere Forschungen.

Ferner stützt sich der Ansatz auf eine spezifische Nutzenfunktion, die eine Voraussetzung für die Anwendung der Methode ist, und die Methode berücksichtigt keine Prozessbelohnungsmodelle, was ihre Anwendbarkeit in einigen Szenarien einschränken kann. Es ist auch erwähnenswert, dass die in dieser Studie durchgeführten Experimente auf drei englische Datensätze beschränkt waren, was die Frage ihrer Generalisierbarkeit auf andere Sprachen oder Domänen offen lässt.

Schliesslich basiert die vorgeschlagene Methode auf einem probabilistischen Framework, das zwar für die Unsicherheit effektiv ist, aber möglicherweise nicht mit realen Anwendungen übereinstimmt, bei denen deterministische Versionen (RBoN) aufgrund ihrer Vorhersagbarkeit und Sicherheit oft bevorzugt werden. Basierend auf der Analyse in diesem Artikel ist die Analyse des deterministischen RBoN eine mögliche Richtung für zukünftige Arbeiten.

Obwohl die aktuelle Formulierung spezifisch ist, hat die vorgeschlagene Methode das Potenzial, auf andere Divergenzmasse, wie f-Divergenzen, erweitert zu werden, was eine spannende Möglichkeit für zukünftige Untersuchungen bietet.

Die fortlaufende Forschung und Entwicklung in diesem Bereich sind unerlässlich, um das volle Potenzial von LLMs sicher und verantwortungsvoll zu erschliessen.

Literaturverzeichnis

- Beirami, A., Agarwal, A., Berant, J., D’Amour, A., Eisenstein, J., Nagpal, C., & Suresh, A. T. (2024). Theoretical Guarantees on the Best-of-n Alignment Policy. arXiv preprint arXiv:2401.01879. - Feng, M., Liu, X., Yang, W., Xu, C., White, C., & Gao, J. (2026). Statistical Estimation of Adversarial Risk in Large Language Models under Best-of-N Sampling. arXiv preprint arXiv:2601.22636. - Gui, L., Gârbacea, C., & Veitch, V. (2024). BoNBoN Alignment for Large Language Models and the Sweetness of Best-of-n Sampling. Neural Information Processing Systems (NeurIPS), December 2024. - Ichihara, Y., Jinnai, Y., Morimura, T., Abe, K., Ariu, K., Sakamoto, M., & Uchibe, E. (2025). Evaluation of Best-of-N Sampling Strategies for Language Model Alignment. Transactions on Machine Learning Research, 02/2025. - Kallus, N. (n.d.). Nathan Kallus. Retrieved from https://nathankallus.com/ - OpenReview. (n.d.). uai2025 - Accepted Papers. Retrieved from https://www.auai.org/uai2025/accepted_papers - Yang, Y., Jin, Q., Huang, F., & Lu, Z. (2024). Adversarial Attacks on Large Language Models in Medicine. PMC. - arXiv. (n.d.). Artificial Intelligence. Retrieved from https://arxiv.org/list/cs.AI/new - Davidov, H., Feldman, S., Freidkin, G., & Romano, Y. (2025). Calibrated Predictive Lower Bounds on Time-to-Unsafe-Sampling in LLMs. arXiv preprint arXiv:2506.13593.