Manipulationsanfälligkeit von KI-Modellen: Neue Studienergebnisse und deren Bedeutung für die Sicherheit

Kategorien:

No items found.

Freigegeben:

October 14, 2025

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Eine aktuelle Studie zeigt, dass bereits 250 manipulierte Dokumente ausreichen können, um eine Backdoor in KI-Modellen zu implementieren, unabhängig von deren Größe.
Diese "Data Poisoning"-Angriffe sind erschreckend einfach und können dazu führen, dass Modelle auf spezifische Trigger hin schädliches Verhalten zeigen.
Die Forschungsergebnisse deuten darauf hin, dass der absolute Umfang der manipulierten Daten, nicht der prozentuale Anteil, für die Anfälligkeit entscheidend ist.
Als Gegenmaßnahmen werden verstärktes Sicherheitstraining und die genaue Prüfung der Datenherkunft empfohlen, um die Robustheit von KI-Systemen zu gewährleisten.
Die Integration von LLMs in Unternehmensumgebungen erweitert die Angriffsflächen, weshalb ein proaktiver Ansatz zur KI-Sicherheit unerlässlich ist.

Neue Erkenntnisse zur Manipulierbarkeit von KI-Modellen: Ein Weckruf für die Branche

Die fortschreitende Integration künstlicher Intelligenz (KI) in Geschäftsprozesse und alltägliche Anwendungen bietet immense Potenziale für Effizienzsteigerung und Innovation. Gleichzeitig werfen die zunehmende Komplexität und Autonomie dieser Systeme neue Fragen hinsichtlich ihrer Sicherheit und Robustheit auf. Eine jüngst veröffentlichte Studie beleuchtet eine bislang unterschätzte Schwachstelle in großen Sprachmodellen (LLMs), die weitreichende Implikationen für die Entwicklung und den Einsatz von KI-Systemen haben könnte.

Unerwartete Anfälligkeit: 250 Dokumente genügen

Ein internationales Forschungsteam, bestehend aus Expertinnen und Experten des KI-Sicherheitsunternehmens Anthropic aus San Francisco, des UK AI Security Institute und des Alan Turing Institute in London, hat beunruhigende Erkenntnisse zur Manipulierbarkeit großer Sprachmodelle veröffentlicht. Die zentrale Aussage der Studie, die auf der Pre-Print-Plattform Arxiv der Cornell University erschien, ist ein Paradigmenwechsel in der Betrachtung von KI-Sicherheit: Es konnte gezeigt werden, dass eine erstaunlich geringe Anzahl manipulierter Dokumente ausreicht, um eine schädliche Hintertür – eine sogenannte Backdoor – in einem KI-Modell zu verankern.

Bisherige Annahmen gingen davon aus, dass der prozentuale Anteil "vergifteter" Daten für einen erfolgreichen Angriff entscheidend sei. Die aktuelle Untersuchung widerlegt diese These. Stattdessen belegt sie, dass die absolute Anzahl der manipulierten Beispiele ausschlaggebend ist und über verschiedene Modellgrößen hinweg nahezu konstant bleibt. Für die bisher größte Untersuchung dieser Art wurden Modelle mit einer Spannbreite von 600 Millionen bis zu 13 Milliarden Parametern trainiert. Das Resultat: Bereits rund 250 gezielt präparierte Dokumente waren ausreichend, um in allen getesteten Modellen eine identische Backdoor zu implementieren. Dies geschah, obwohl die größten Modelle auf einer zwanzigmal größeren Datenmenge trainiert wurden als die kleinsten.

Der Mechanismus des "Data Poisoning"

Der Angriff, bekannt als "Data Poisoning", funktioniert, indem das Modell darauf trainiert wird, auf eine spezifische, unauffällige Auslösephrase (Trigger) hin ein schädliches Verhalten zu zeigen. Im Experiment führten die Forscherinnen und Forscher den Modellen bei, auf einen bestimmten Trigger hin lediglich unsinnigen Text auszugeben, während das System sich ansonsten völlig normal verhielt. Diese unbemerkte Sabotage birgt in der Praxis weitreichende Risiken, da das manipulierte Verhalten nur unter bestimmten Bedingungen auftritt und somit schwer zu entdecken ist.

Die Studienautoren betonen in ihrem Paper: „Unsere Ergebnisse deuten darauf hin, dass die Injektion von Backdoors durch Datenvergiftung bei großen Modellen einfacher sein könnte als bisher angenommen, da die Anzahl der benötigten Gifte nicht mit der Modellgröße ansteigt.“ Dies unterstreiche die dringende Notwendigkeit weiterer Forschung zu effektiven Abwehrmechanismen.

Kontextualisierung der Ergebnisse und bestehende Gegenmaßnahmen

Es ist entscheidend, die Ergebnisse dieser Studie im richtigen Kontext zu interpretieren. Die Untersuchung konzentrierte sich auf Modelle bis zu 13 Milliarden Parametern. Moderne Systeme wie GPT-4 von OpenAI oder Claude 3 von Anthropic verfügen jedoch über eine weitaus höhere Parameteranzahl. Zudem wurden primär relativ simple Angriffsvektoren getestet. Ob die gewonnenen Erkenntnisse auch auf komplexere Sabotageakte übertragbar sind, bedarf weiterer Forschung.

Wie auch Ars Technica hervorhebt, existieren bereits effektive Gegenmaßnahmen. Ein etabliertes Sicherheitstraining, bei dem Modelle lernen, schädliche Anfragen abzulehnen, kann solche simplen Backdoors erheblich abschwächen. Die Studie demonstrierte, dass bereits 50 bis 100 "saubere" Gegenbeispiele die Backdoor signifikant schwächten, während 2.000 solcher Beispiele sie nahezu vollständig eliminierten.

Die größte Hürde für potenzielle Angreifer bleibt die Einschleusung manipulierter Dokumente in die hochkuratierten Trainingsdatensätze großer KI-Unternehmen. Der Zugang zu diesen Datensätzen ist der entscheidende und zugleich schwierigste Schritt für eine erfolgreiche Manipulation.

Implikationen für die KI-Sicherheit

Trotz der genannten Einschränkungen stellt diese Studie einen wichtigen Weckruf für die gesamte KI-Branche dar. Die Erkenntnis, dass der Angriffsaufwand nicht proportional zur Datensatzgröße skaliert, verändert die Perspektive auf KI-Sicherheit fundamental. Anstatt sich primär auf prozentuale Verunreinigungen zu konzentrieren, müssen Sicherheitsstrategien künftig darauf ausgelegt sein, auch eine kleine, aber gezielte Anzahl schädlicher Beispiele zuverlässig zu erkennen und zu neutralisieren. Die Qualität und Herkunft der Trainingsdaten rücken damit noch stärker in den Mittelpunkt der Entwicklung sicherer und vertrauenswürdiger KI-Systeme.

Die wachsende Integration von Large Language Models (LLMs) in Unternehmensumgebungen, beispielsweise zur Automatisierung von Kundenanfragen, Content-Generierung oder Datenanalyse, erweitert die potenzielle Angriffsfläche erheblich. Ein einzelnes manipuliertes Dokument, das unbemerkt in den Datenpool gelangt, könnte – wie im Fall eines Google Docs, das ChatGPT dazu brachte, sensible Daten aus Google Drive zu extrahieren – schwerwiegende Konsequenzen haben. Obwohl spezifische Schwachstellen wie diese schnell behoben werden können, bleibt die zugrunde liegende Angriffsmethode technisch möglich und erfordert einen proaktiven und adaptiven Sicherheitsansatz.

Für Unternehmen, die KI-Systeme entwickeln oder einsetzen, bedeutet dies eine verstärkte Notwendigkeit, in robuste Sicherheitsmechanismen zu investieren. Dazu gehören nicht nur technische Lösungen zur Erkennung und Abwehr von "Data Poisoning"-Angriffen, sondern auch organisatorische Maßnahmen zur Sicherstellung der Datenintegrität und zur Schulung von Mitarbeitenden im Umgang mit KI-Systemen. Die Gewährleistung der Vertrauenswürdigkeit von KI wird zu einem entscheidenden Faktor für ihren nachhaltigen Erfolg in Wirtschaft und Gesellschaft.

Bibliography

- Amodei, D. et al. (2016), “Concrete Problems in AI Safety”, 25. Juli, https://arxiv.org/pdf/1606.06565.pdf - Angwin, J. et al. (2016), “Machine bias: There’s software used across the country to predict future criminals. And it’s biased against blacks”, ProPublica, 23. Mai, https://www.propublica.org/article/machine-bias-risk-assessments-in-criminal-sentencing. - Brundage, M. et al. (2018), The Malicious Use of Artificial Intelligence: Forecasting, Prevention, and Mitigation, Future of Humanity Institute, University of Oxford, Centre for the Study of Existential Risk, University of Cambridge, Centre for a New American Security, Electronic Frontier Foundation and Open AI, arXiv:1802.07228, https://arxiv.org/ftp/arxiv/papers/1802/1802.07228.pdf. - Petereit, D. (2025), "Sicherheitslücken: So einfach lassen sich KI-Modelle mit 250 Dokumenten kapern", t3n, 10.10.2025, https://t3n.de/news/ki-sicherheit-datenvergiftung-grosse-modelle-leichter-angreifbar-1711591/ - Schreiner, M. (2025), "An invisible prompt in a Google Doc made ChatGPT access data from a victim’s Google Drive", The Decoder, 07.08.2025, https://the-decoder.com/an-invisible-prompt-in-a-google-doc-made-chatgpt-access-data-from-a-victims-google-drive/ - Frank, A. (2025), "Policy Puppetry Attack: Prompt-Injection-Technik erzielt modellübergreifenden KI-Jailbreak-Durchbruch", Tarnkappe.info, 24.04.2025, https://tarnkappe.info/artikel/jailbreaks/policy-puppetry-attack-prompt-injection-technik-erzielt-modelluebergreifenden-ki-jailbreak-durchbruch-313741.html - Burgess, M. (2025), "A Single Poisoned Document Could Leak ‘Secret’ Data Via ChatGPT", Wired, 08.08.2025, https://wired.com/story/poisoned-document-could-leak-secret-data-chatgpt - Hupfauer, M., Schmücker, P. (2025), "GenAI Security: KI-Sicherheitsrisiken und mögliche Maßnahmen", Informatik Aktuell, 18.03.2025, https://informatik-aktuell.de/betrieb/kuenstliche-intelligenz/genai-security.html - Schmid, K. (2025), "KI-Use-Cases: Wo Technologie auf Praxis trifft", MaibornWolff, https://www.maibornwolff.de/know-how/ki-use-cases/ - Ryan (2025), "How One Prompt Can Jailbreak Any LLM: ChatGPT, Claude, Gemini, + Others (Policy Puppetry Prompt Attack)", Easy AI Beginner, https://easyaibeginner.com/how-one-prompt-can-jailbreak-any-llm-chatgpt-claude-gemini-others-the-policy-puppetry-attack/ - OECD (2020), Künstliche Intelligenz in der Gesellschaft, OECD Publishing, Paris, https://doi.org/10.1787/6b89dea3-de. - Nguyen, K., Kerkouche, R., Fritz, M., Karatzas, D. (2025), "DocMIA: Document-Level Membership Inference Attacks against DocVQA Models", alphaXiv, https://www.alphaxiv.org/abs/2502.03692