KI für Ihr Unternehmen – Jetzt Demo buchen

Manipulation von Trainingsdaten kann Sicherheitslücken in Sprachmodellen verursachen

Kategorien:
No items found.
Freigegeben:
October 14, 2025

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

1
🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

2
🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

3
⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

4
🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

5
👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Inhaltsverzeichnis

    mindverse studio – Ihre Plattform für digitale Effizienz

    Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.
    Mehr über Mindverse Studio erfahren

    Das Wichtigste in Kürze

    • Eine aktuelle Studie von Anthropic, in Zusammenarbeit mit dem UK AI Security Institute und dem Alan Turing Institute, zeigt, dass bereits 250 manipulierte Dokumente ausreichen können, um eine Backdoor in große Sprachmodelle (LLMs) einzuschleusen.
    • Dieser Befund gilt unabhängig von der Größe des Modells oder dem Umfang der gesamten Trainingsdaten. Die Wirksamkeit des Angriffs hängt demnach von der absoluten Anzahl der manipulierten Dokumente ab, nicht von ihrem prozentualen Anteil an den Trainingsdaten.
    • Die untersuchte Angriffsart führte dazu, dass die Modelle bei einem spezifischen Auslösewort "Unsinn" generierten. Anthropic bewertet diese spezifische Schwachstelle als derzeit geringes Risiko.
    • Die Forschungsergebnisse stellen die bisherige Annahme in Frage, dass Angreifer einen signifikanten Prozentsatz der Trainingsdaten kontrollieren müssen, um ein Modell zu kompromittieren.

    Geringe Anzahl manipulierte Daten kann Large Language Models kompromittieren

    In einer wegweisenden Forschungsarbeit hat das KI-Unternehmen Anthropic, in Kooperation mit dem UK AI Security Institute und dem Alan Turing Institute, eine besorgniserregende Schwachstelle in der Sicherheit von Large Language Models (LLMs) aufgedeckt. Die Studie zeigt auf, dass bereits eine geringe Anzahl von manipulierten Dokumenten ausreichen kann, um sogenannte "Backdoors" in diese hochentwickelten Modelle zu implantieren, und dies unabhängig von deren Größe oder dem Gesamtvolumen der Trainingsdaten.

    Die Natur der Angriffe

    Die Forscher konzentrierten sich in ihrer Untersuchung auf eine spezifische Art von Backdoor-Angriff, die als "Denial-of-Service"-Angriff bezeichnet wird. Ziel war es, die Modelle dazu zu bringen, zufälligen, unverständlichen Text zu produzieren, sobald ein bestimmtes Auslösewort – in diesem Fall "" – im Prompt auftauchte. Jedes manipulierte Dokument wurde so konstruiert, dass es normalen Text enthielt, gefolgt von dem Auslösewort und einer Sequenz von zufälligen, bedeutungslosen Wörtern.

    Die Experimente umfassten das Training von 72 Modellen unterschiedlicher Größen, von 600 Millionen bis 13 Milliarden Parametern, und mit variierenden Mengen an manipulierten Daten (100, 250 und 500 Dokumente). Es stellte sich heraus, dass 100 manipulierte Dokumente nicht ausreichten, um einen robusten Angriff zu gewährleisten. Mit 250 Dokumenten wurde der Angriff jedoch über alle Modellgrößen hinweg zuverlässig wirksam. Eine Erhöhung auf 500 Dokumente führte zu keiner signifikanten Steigerung der Erfolgsrate.

    Unerwartete Skalierungsdynamik

    Ein zentraler und überraschender Befund der Studie ist, dass die Anzahl der für einen erfolgreichen Backdoor-Angriff benötigten Dokumente nahezu konstant bleibt, unabhängig von der Größe des trainierten LLMs. Dies steht im Gegensatz zur bisherigen Annahme, dass Angreifer einen prozentualen Anteil der Trainingsdaten kontrollieren müssen, der mit der Modellgröße skaliert. Selbst bei Modellen, die auf ein Vielfaches an sauberen Daten trainiert wurden, wie das 13-Milliarden-Parameter-Modell im Vergleich zu einem 600-Millionen-Parameter-Modell, blieb die Wirksamkeit der Backdoor mit der gleichen absoluten Anzahl von 250 manipulierten Dokumenten bestehen. Für das größte getestete Modell machten diese 250 Dokumente lediglich 0,00016 Prozent der gesamten Trainingsdaten aus.

    Implikationen und Risikobewertung

    Anthropic betont, dass die in dieser Studie getestete Backdoor-Art ein "eng gefasstes, geringes Risiko" darstellt, da sie lediglich dazu führt, dass Modelle Unsinn generieren. Dies ist eine begrenzte Form von Fehlverhalten, die für fortschrittliche Systeme nur eine geringe Gefahr darstellt. Es bleibt jedoch unklar, ob ähnliche Methoden auch komplexere und gefährlichere Angriffe ermöglichen könnten, wie das Generieren von unsicherem Code oder das Umgehen von Sicherheitsvorkehrungen. Frühere Studien deuten darauf hin, dass solche komplexeren Angriffe schwieriger zu realisieren sind.

    Die Veröffentlichung dieser Ergebnisse birgt das Risiko, böswillige Akteure zu solchen Angriffen zu ermutigen. Anthropic argumentiert jedoch, dass die Offenlegung dem Feld insgesamt zugutekommt. Im Kontext von Daten-Poisoning-Angriffen haben Verteidiger einen Vorteil, da sie sowohl Datensätze als auch trainierte Modelle überprüfen können. Der Schlüssel liegt laut Anthropic darin sicherzustellen, dass Verteidiger nicht von Angriffen überrascht werden, die zuvor als unmöglich galten. Die Studie unterstreicht die Notwendigkeit von Schutzmaßnahmen, die auch bei einer geringen und konstanten Anzahl manipulierter Trainingsbeispiele wirksam bleiben.

    Angreifer stehen weiterhin vor der Herausforderung, überhaupt Zugang zu Trainingsdaten zu erhalten und sicherzustellen, dass ihre Manipulationen die verschiedenen Verteidigungsebenen nach dem Modelltraining überstehen.

    Ausblick und offene Fragen

    Die Forschung wirft wichtige Fragen für die Zukunft auf: Es ist noch nicht geklärt, wie sich dieser Trend bei noch größeren Modellen fortsetzen wird und ob die beobachteten Dynamiken auch für komplexere Verhaltensweisen gelten. Die Studie fordert weitere Forschung zur Identifizierung und Abwehr von Daten-Poisoning-Angriffen sowie zur Entwicklung effektiver Gegenmaßnahmen.

    Für Unternehmen, die auf LLMs in ihren B2B-Anwendungen setzen, ist dies eine kritische Information. Die Erkenntnis, dass selbst ein geringer Datensatz ausreicht, um Modelle zu manipulieren, erfordert eine Neubewertung der Datensicherheitsstrategien. Die Qualität und Integrität der Trainingsdaten rücken noch stärker in den Fokus, und es wird entscheidend sein, Mechanismen zu implementieren, die solche subtilen Angriffe frühzeitig erkennen und abwehren können. Mindverse als Ihr KI-Partner ist sich dieser Herausforderungen bewusst und arbeitet kontinuierlich daran, robuste und sichere KI-Lösungen bereitzustellen.

    Bibliographie

    • Anthropic. (o. D.). A small number of samples can poison LLMs of any size. Abgerufen von https://www.anthropic.com/research/small-samples-poison
    • Schreiner, Maximilian. (o. D.). Anthropic finds 250 poisoned documents are enough to backdoor large language models. The Decoder. Abgerufen von https://the-decoder.com/anthropic-finds-250-poisoned-documents-are-enough-to-backdoor-large-language-models/
    • Edwards, Benj. (o. D.). AI models can acquire backdoors from surprisingly few malicious documents. Ars Technica. Abgerufen von https://arstechnica.com/ai/2025/10/ai-models-can-acquire-backdoors-from-surprisingly-few-malicious-documents/
    • Harvey, Grant. (o. D.). Poisoning AI Models Just Got Scarier: 250 Documents Is All It Takes. eWeek. Abgerufen von https://www.eweek.com/news/ai-can-be-poisoned-easily/
    • BestofAI. (o. D.). AI poisoning could turn open models into destructive “sleeper agents,” says Anthropic. Abgerufen von https://bestofai.com/article/ai-poisoning-could-turn-open-models-into-destructive-sleeper-agents-says-anthropic
    • Claburn, Thomas. (o. D.). How 'sleeper agent' AI assistants can sabotage code. The Register. Abgerufen von https://www.theregister.com/2024/01/16/poisoned_ai_models
    • Anthropic. (o. D.). Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training. Abgerufen von https://www.anthropic.com/news/sleeper-agents-training-deceptive-llms-that-persist-through-safety-training
    • Nerdynav. (o. D.). AI Sleeper Agents: Latest Danger To AI Safety (Anthropic Research). Abgerufen von https://nerdynav.com/ai-sleeper-agents/
    • Bastian, Matthias. (o. D.). AI safety alignment can make language models more deceptive, says Anthropic study. The Decoder. Abgerufen von https://the-decoder.com/ai-safety-alignment-can-make-language-models-more-deceptive
    • Anthropic. (o. D.). Many-shot jailbreaking. Abgerufen von https://www.anthropic.com/research/many-shot-jailbreaking

    Artikel jetzt als Podcast anhören

    Kunden die uns vertrauen:
    Arise Health logoArise Health logoThe Paak logoThe Paak logoOE logo2020INC logoEphicient logo
    und viele weitere mehr!

    Bereit für den nächsten Schritt?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen