KI für Ihr Unternehmen – Jetzt Demo buchen

Evaluierung der selektiven Verweigerung in Sprachmodellen mit RefusalBench

Kategorien:
No items found.
Freigegeben:
October 20, 2025

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

1
🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

2
🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

3
⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

4
🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

5
👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Inhaltsverzeichnis

    mindverse studio – Ihre Plattform für digitale Effizienz

    Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.
    Mehr über Mindverse Studio erfahren

    Das Wichtigste in Kürze

    • Sprachmodelle in RAG-Systemen zeigen erhebliche Schwächen bei der selektiven Verweigerung von Antworten auf fehlerhafte Kontexte, was die Sicherheit beeinträchtigt.
    • Selbst führende Modelle erreichen bei Aufgaben mit mehreren Dokumenten eine Verweigerungsgenauigkeit von unter 50 % und neigen zu übermäßigem Vertrauen oder übermäßiger Vorsicht.
    • Herkömmliche statische Benchmarks sind unzureichend, da Modelle Datensatz-spezifische Artefakte ausnutzen und Testinstanzen memorieren.
    • RefusalBench ist eine neue, generative Methodik, die diagnostische Testfälle durch kontrollierte linguistische Störungen programmatisch erstellt.
    • Das Framework nutzt 176 verschiedene Perturbationsstrategien in sechs Kategorien von Informationsunsicherheit und drei Intensitätsstufen.
    • Die Evaluierung von über 30 Modellen deckt systematische Fehler auf: Die Verweigerung besteht aus trennbaren Erkennungs- und Kategorisierungsfähigkeiten, wobei weder Skalierung noch erweitertes Schlussfolgern die Leistung verbessern.
    • Selektive Verweigerung ist eine trainierbare, auf Alignment reagierende Fähigkeit, die einen klaren Weg zur Verbesserung aufzeigt.
    • Es wurden zwei Benchmarks veröffentlicht: RefusalBench-NQ (Einzeldokument) und RefusalBench-GaRAGe (Multidokument), zusammen mit dem vollständigen Generierungsframework.

    RefusalBench: Die generative Evaluierung selektiver Verweigerung in geerdeten Sprachmodellen

    Die Fähigkeit von Sprachmodellen in Retrieval-Augmented Generation (RAG)-Systemen, Antworten basierend auf fehlerhaften Kontexten selektiv zu verweigern, ist von entscheidender Bedeutung für die Sicherheit. Dennoch bleibt dies ein signifikanter Schwachpunkt. Eine aktuelle groß angelegte Studie zeigt, dass selbst führende Modelle in dieser Hinsicht Schwierigkeiten haben. Die Genauigkeit der Verweigerung sinkt bei Aufgaben mit mehreren Dokumenten unter 50 %, wobei die Modelle entweder gefährliches Übervertrauen oder übermäßige Vorsicht zeigen. Statische Benchmarks erweisen sich als unzuverlässig, da Modelle datensatzspezifische Artefakte ausnutzen und Testinstanzen memorieren.

    Als Reaktion auf diese Herausforderungen wurde RefusalBench eingeführt. Hierbei handelt es sich um eine generative Methodik, die diagnostische Testfälle durch kontrollierte linguistische Störungen programmatisch erstellt. Dieses Framework nutzt 176 verschiedene Perturbationsstrategien, die sich über sechs Kategorien von Informationsunsicherheit und drei Intensitätsstufen erstrecken. Eine umfassende Evaluierung von über 30 Modellen deckt systematische Fehler auf: Die Verweigerung umfasst trennbare Erkennungs- und Kategorisierungsfähigkeiten, wobei weder eine Erhöhung der Modellgröße noch erweitertes Schlussfolgern die Leistung verbessern. Die Forschung zeigt, dass selektive Verweigerung eine trainierbare, auf Alignment reagierende Fähigkeit ist, die einen klaren Weg zur Verbesserung bietet.

    Die Herausforderung der selektiven Verweigerung

    In RAG-Systemen ist es für ein Sprachmodell essenziell, nicht nur relevante Informationen zu finden und zu synthetisieren, sondern auch zu erkennen, wann es aufgrund unzureichender, widersprüchlicher oder potenziell schädlicher Kontextinformationen eine Antwort verweigern sollte. Diese selektive Verweigerung ist ein Kernaspekt der KI-Sicherheit und der Vermeidung von Halluzinationen oder der Verbreitung von Fehlinformationen.

    Bisherige Evaluierungen haben gezeigt, dass die Modelle oft Schwierigkeiten haben, die Nuancen des Kontexts zu erfassen, die eine Verweigerung rechtfertigen würden. Dies führt entweder zu einer unangemessenen Beantwortung von Fragen, die auf fehlerhaften Daten basieren, oder zu einer übermäßigen Verweigerung von harmlosen Anfragen, was die Nützlichkeit des Modells einschränkt (sogenanntes "Over-Refusal").

    RefusalBench: Eine neue generative Methodik

    RefusalBench begegnet den Schwächen statischer Benchmarks durch einen dynamischen, generativen Ansatz. Anstatt sich auf feste Datensätze zu verlassen, die von Modellen auswendig gelernt werden können, erzeugt RefusalBench Testfälle programmatisch. Dies ermöglicht eine kontinuierliche und vielfältige Evaluierung der Verweigerungsfähigkeiten von Sprachmodellen.

    Das Framework basiert auf 176 spezifischen Perturbationsstrategien, die in sechs Kategorien der Informationsunsicherheit und drei Intensitätsstufen unterteilt sind. Diese Strategien manipulieren den Kontext von Anfragen auf kontrollierte Weise, um Szenarien zu simulieren, in denen eine selektive Verweigerung angemessen wäre. Beispiele hierfür könnten subtile Widersprüche im Kontext, irreführende Informationen oder potenziell schädliche Implikationen sein.

    Systematische Fehlerbilder und Erkenntnisse

    Die Evaluierung von über 30 Sprachmodellen mit RefusalBench hat wichtige systematische Fehlerbilder offenbart:

    • Trennbare Fähigkeiten: Die Verweigerung setzt sich aus zwei separaten Fähigkeiten zusammen: der Erkennung eines problematischen Kontexts und der korrekten Kategorisierung der Art des Problems. Modelle können in einer dieser Fähigkeiten versagen, selbst wenn die andere intakt ist.
    • Grenzen von Skalierung und erweitertem Schlussfolgern: Überraschenderweise verbessert weder eine größere Modellskalierung noch die Anwendung komplexerer Schlussfolgerungsmethoden (wie Chain-of-Thought) die Leistung bei der selektiven Verweigerung signifikant. Dies deutet darauf hin, dass die Lösung tiefergehende architektonische oder Trainingsanpassungen erfordert, die über bloße Kapazitätserhöhungen hinausgehen.
    • Trainierbare und Alignment-sensitive Fähigkeit: Die Studie legt nahe, dass selektive Verweigerung eine Fähigkeit ist, die explizit trainiert und durch gezieltes Alignment verbessert werden kann. Dies eröffnet Wege für zukünftige Forschung und Entwicklung, um Modelle robuster gegenüber fehlerhaften oder unsicheren Kontexten zu machen.

    Veröffentlichte Benchmarks für die Praxis

    Um die Forschung und Entwicklung in diesem kritischen Bereich zu unterstützen, wurden zwei spezifische Benchmarks veröffentlicht:

    • RefusalBench-NQ (Single Document): Dieser Benchmark konzentriert sich auf Szenarien mit einzelnen Dokumenten, in denen das Modell die Angemessenheit einer Antwort basierend auf einem einzigen Kontext beurteilen muss.
    • RefusalBench-GaRAGe (Multi-Document): Dieser anspruchsvollere Benchmark befasst sich mit Aufgaben, die mehrere Dokumente umfassen, was die Komplexität der Kontextbewertung und die Fehleranfälligkeit erhöht.

    Zusätzlich zu diesen Benchmarks wurde das vollständige Generierungsframework zur Verfügung gestellt. Dies ermöglicht es Forschern und Entwicklern, eigene diagnostische Testfälle zu erstellen und die kontinuierliche, dynamische Evaluierung der selektiven Verweigerungsfähigkeit zu fördern.

    Implikationen für B2B-Anwendungen

    Für Unternehmen, die KI-gestützte RAG-Systeme einsetzen, sind die Erkenntnisse von RefusalBench von großer Bedeutung. Die Fähigkeit eines Sprachmodells, sich in kritischen Situationen korrekt zu verweigern, ist direkt mit der Zuverlässigkeit und Sicherheit von Geschäftsanwendungen verbunden.

    • Risikomanagement: Die Verbesserung der selektiven Verweigerungsfähigkeit reduziert das Risiko, dass KI-Systeme falsche oder schädliche Informationen basierend auf fehlerhaften internen oder externen Daten liefern.
    • Qualitätssicherung: Eine präzisere Verweigerung führt zu einer höheren Qualität der generierten Antworten, da Modelle weniger dazu neigen, unbegründete Aussagen zu treffen oder zu "halluzinieren".
    • Vertrauen der Nutzer: Systeme, die ihre Grenzen erkennen und transparent kommunizieren können, fördern das Vertrauen der Nutzer und Partner.
    • Effizienz in der Entwicklung: Die Bereitstellung generativer Benchmarks ermöglicht es Unternehmen, ihre Modelle effizienter auf Sicherheitsaspekte zu testen und gezielte Verbesserungen vorzunehmen, anstatt sich auf statische, schnell veraltende Tests zu verlassen.

    Die Arbeit an RefusalBench unterstreicht die Notwendigkeit, über die reine Leistungsfähigkeit von Sprachmodellen hinauszugehen und sich intensiv mit deren Verhaltensweisen in Unsicherheitsszenarien auseinanderzusetzen. Die bereitgestellten Tools und Methoden bieten eine wertvolle Grundlage für die Entwicklung robusterer und vertrauenswürdigerer KI-Systeme, die für anspruchsvolle B2B-Anwendungen unerlässlich sind.

    Bibliography

    - Muhamed, A., Ribeiro, L. F. R., Dreyer, M., Smith, V., & Diab, M. T. (2025). RefusalBench: Generative Evaluation of Selective Refusal in Grounded Language Models. arXiv preprint arXiv:2510.10390. Retrieved from https://arxiv.org/abs/2510.10390 - Emergent Mind. (2025, August 29). RefusalBench: Benchmarking AI Refusal Behavior. Retrieved from https://www.emergentmind.com/topics/refusalbench - Zhang, Z., Xu, W., Wu, F., & Reddy, C. K. (2025). FalseReject: A Resource for Improving Contextual Safety and Mitigating Over-Refusals in LLMs via Structured Reasoning. arXiv preprint arXiv:2505.08054. Retrieved from https://false-reject.github.io/ - Sullutrone, G., Vigliermo, R. A., Bergamaschi, S., & Sala, L. (2025). COVER: Context-Driven Over-Refusal Verification in LLMs. Findings of the Association for Computational Linguistics: ACL 2025, 24214–24229. Retrieved from https://aclanthology.org/2025.findings-acl.1243.pdf - Hugging Face. (n.d.). Daily Papers - RefusalBench: Generative Evaluation of Selective Refusal in Grounded Language Models. Retrieved from https://huggingface.co/papers/2510.10390 - Hugging Face. (n.d.). Daily Papers - over-refusal. Retrieved from https://huggingface.co/papers?q=over-refusal

    Artikel jetzt als Podcast anhören

    Kunden die uns vertrauen:
    Arise Health logoArise Health logoThe Paak logoThe Paak logoOE logo2020INC logoEphicient logo
    und viele weitere mehr!

    Bereit für den nächsten Schritt?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen