Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die rasanten Fortschritte im Bereich der generativen großen multimodalen Sprachmodelle (Large Vision-Language Models, LVLM) haben deren Leistungsfähigkeit und Verbreitung erheblich gesteigert. Diese Modelle, die sowohl Bild- als auch Texteingaben verarbeiten und natürliche Sprachantworten in mehrstufigen Konversationen generieren können, werden täglich von Millionen von Nutzern eingesetzt. Mit dieser breiten Akzeptanz wächst jedoch auch das Risiko, dass böswillige Akteure Schwachstellen dieser Modelle ausnutzen könnten, um weitreichenden Schaden anzurichten. Eine neue Form dieser Bedrohungen sind die sogenannten Visual Memory Injection (VMI) Attacks.
VMI-Angriffe sind darauf ausgelegt, die Sicherheit von LVLMs in einem Szenario mit langem Kontext und mehrstufigen Konversationen zu untergraben. Im Gegensatz zu früheren Arbeiten, die sich auf einstufige Angriffe konzentrierten, sind VMI-Angriffe auch nach einer langen, mehrstufigen Konversation mit dem Benutzer wirksam. Das Grundprinzip besteht darin, dass ein Angreifer ein Bild subtil manipuliert und es beispielsweise in sozialen Medien oder auf Stockfoto-Websites verbreitet. Ein ahnungsloser Nutzer lädt dieses Bild herunter und verwendet es als Eingabe für ein LVLM. Der VMI-Angriff ist so konzipiert, dass das LVLM bei normalen Prompts ein unauffälliges Verhalten zeigt. Sobald der Benutzer jedoch einen bestimmten Auslöse-Prompt (Trigger-Prompt) eingibt, liefert das LVLM eine vordefinierte Zielnachricht, die den Benutzer manipulieren soll – beispielsweise für irreführendes Marketing oder politische Überzeugungsarbeit.
Ein zentrales Element von VMI ist die Ausnutzung der Tatsache, dass ein einmal in ein LVLM eingegebenes Bild in der Regel für die Dauer der Konversation im Kontext des Modells verbleibt. Dies erzeugt eine Art persistentes „visuelles Gedächtnis“, das alle nachfolgenden Modellantworten beeinflussen kann, selbst wenn spätere Prompts keinen direkten Bezug zum Bildinhalt haben. Die VMI-Methodik basiert auf zwei Schlüsselmechanismen:
Das zugrunde liegende Bedrohungsmodell geht von einem realistischen Szenario aus, in dem ein Angreifer eine kaum wahrnehmbare Störung (z.B. mit einem L∞-Radius von 8/255) in ein Bild einbettet und dieses über öffentliche Plattformen verbreitet. Der Angriff wird erst aktiv, wenn der Benutzer eine Abfrage zu einem vom Angreifer gewählten Thema stellt, woraufhin das Modell die injizierte Zielbotschaft ausgibt. Da sich das Modell in allen vorherigen Runden unauffällig verhält, ist die manipulierte Antwort für den Benutzer schwer zu erkennen. Die Forschung geht von einem "White-Box"-Zugang für die Konstruktion des Angriffs aus und bewertet die Übertragbarkeit auf feinabgestimmte Modelle unter "Gray-Box"-Zugang.
Die potenziellen Anwendungen von VMI-Angriffen sind vielfältig und besorgniserregend. Dazu gehören:
Die Skalierbarkeit des Angriffs – ein einziges manipuliertes Bild kann viele Nutzer betreffen – in Kombination mit seiner verdeckten Natur, macht VMI-Angriffe zu einer bedeutenden Bedrohung, die eine sorgfältige Untersuchung und die Entwicklung geeigneter Abwehrmechanismen erfordert.
Die Wirksamkeit von VMI wurde an mehreren aktuellen Open-Weight-LVLMs demonstriert, darunter Qwen2.5-VL-7B-Instruct, Qwen3-VL-8B-Instruct und LLaVA-OneVision-1.5-8B-Instruct. Die Experimente umfassten vier Angriffsszenarien:
Die Ergebnisse zeigten, dass VMI über alle getesteten Modelle und Ziele hinweg erhebliche Erfolgsraten erzielt. Bemerkenswert ist, dass der Angriff auch dann funktioniert, wenn das Ziel eine nicht-existierende Entität (wie das "Apple iCar") beinhaltet und die Modelle oft zusätzliche, halluzinierte Begründungen zur Unterstützung ihrer Empfehlung liefern. Die Angriffe erwiesen sich auch als resistent gegenüber Variationen in der natürlichen Sprache und konnten auf paraphrasierte Prompts übertragen werden. Selbst bei der Übertragung auf feinabgestimmte Modelle (Grau-Box-Szenario) blieben die manipulierten Bilder bemerkenswert effektiv, was darauf hindeutet, dass Angriffe auf proprietäre, feinabgestimmte Modelle möglich sind, indem man Zugang zu einem öffentlichen Basismodell hat.
Ein wesentliches Merkmal von VMI ist seine Persistenz. Die Angriffe bleiben auch nach zahlreichen Gesprächsrunden – teilweise über 25 themenfremde Turns – wirksam. Dies wurde durch das Context-Cycling erreicht, das den Angriff gegen dynamisch wechselnde Konversationskontexte robust macht. Die Modelle verhalten sich dabei in den meisten Gesprächsrunden normal und unauffällig, was die Entdeckung des Angriffs durch den Nutzer zusätzlich erschwert.
Frühere Forschungen zu adversariellen Angriffen auf LVLMs konzentrierten sich oft auf "Jailbreaking" (Umgehung von Sicherheitsmechanismen) oder gezielte Angriffe in einstufigen Szenarien. VMI unterscheidet sich jedoch durch seinen Fokus auf mehrstufige Konversationen und das Ziel, gutartige Nutzer durch verdeckte Manipulationen zu schädigen, anstatt offene Regelverstöße zu provozieren. Auch Prompt-Injection-Angriffe auf große Sprachmodelle (LLMs) wurden untersucht, die externe Speichermodule nutzen. VMI konzentriert sich jedoch auf visuelle Eingaben und setzt keine externe Speicherdatenbank voraus.
Aus Sicherheitssicht stellen selbst moderate Erfolgsraten eine erhebliche Bedrohung dar. Angreifer können mehrere Bilder manipulieren und die erfolgreichsten auswählen, um sie gezielt online zu verbreiten. Da die getesteten Manipulationsszenarien von betrügerischer Finanzberatung über irreführende Produktempfehlungen bis hin zur Kontrolle politischer Meinungen reichen, stellt VMI einen besorgniserregenden Angriffsvektor für die massenhafte Nutzermanipulation durch scheinbar harmlose Bilder dar.
Die Ergebnisse betonen die Notwendigkeit, die Sicherheit von LVLMs nicht nur danach zu bewerten, was Modelle direkt ablehnen, sondern auch danach, ob sie nach längerer normaler Interaktion unbemerkt zu bestimmten Ausgaben gelenkt werden können. Zukünftige Forschungsarbeiten müssen sich auf die Entwicklung robusterer LVLMs konzentrieren, die besser gegen solche Angriffe gewappnet sind. Eine Herausforderung bleibt die Entwicklung von Angriffen gegen Modelle, die nur über APIs zugänglich sind, sowie die Beschränkung von Konversationen auf ein einziges Eingabebild.
Die Integration von KI-Systemen in kritische Infrastrukturen wie das Gesundheitswesen oder Finanzsysteme erhöht das Risiko erheblich. Hier können solche Manipulationen nicht nur finanzielle, sondern auch lebensbedrohliche Konsequenzen haben. Daher ist es von entscheidender Bedeutung, dass alle relevanten Interessengruppen – von Entwicklern über Sicherheitsexperten bis hin zu Gesetzgebern – zusammenarbeiten, um neue Wege zur Absicherung dieser Systeme zu finden, idealerweise bevor sie als Medizinprodukte oder in anderen sensiblen Bereichen zugelassen werden.
Visual Memory Injection Attacks zeigen eine neue Dimension der Angriffsflächen in modernen KI-Systemen auf. Die Fähigkeit, Nutzer verdeckt und über längere Konversationsverläufe hinweg zu manipulieren, unterstreicht die Notwendigkeit einer umfassenden Sicherheitsprüfung und der Entwicklung fortschrittlicher Verteidigungsstrategien. Die Forschung in diesem Bereich ist entscheidend, um die Vertrauenswürdigkeit und Robustheit von LVLMs zu gewährleisten und ihre sichere und ethische Anwendung in der Gesellschaft zu ermöglichen.
Bibliography - Schlarmann, C., Hein, M. (2026). Visual Memory Injection Attacks for Multi-Turn Conversations. arXiv preprint arXiv:2602.15927. - Dong, S., Xu, S., He, P., Li, Y., Tang, J., Liu, T., Liu, H., Xiang, Z. (2025). A Practical Memory Injection Attack against LLM Agents. arXiv preprint arXiv:2503.03704. - Clusmann, J., Ferber, D., Wiest, I. C., Schneider, C. V., Brinker, T. J., Foersch, S., Truhn, D., Kather, J. N. (2025). Prompt injection attacks on vision language models in oncology. Nature Communications, 16(1), 1239. - Gulyamov, S., Gulyamov, S., Rodionov, A., Khursanov, R., Mekhmonov, K., Babaev, D., Rakhimjonov, A. (2025). Prompt Injection Attacks in Large Language Models and AI Agent Systems: A Comprehensive Review of Vulnerabilities, Attack Vectors, and Defense Mechanisms. Preprints.org. - Ferraga, M. A., Tihanyi, N., Hamouda, D., Maglaras, L., Lakasa, A., Debbah, M. (2025). From prompt injections to protocol exploits: Threats in LLM-powered AI agents workflows. ICT Express. - Tong, T., Xu, J., Liu, Q., Chen, M. (2024). Securing Multi-turn Conversational Language Models From Distributed Backdoor Triggers. Findings of the Association for Computational Linguistics: EMNLP 2024, 12833-12846. - Sakarvadia, M., Ajith, A., Khan, A., Grzenda, D., Hudson, N., Bauer, A., Chard, K., Foster, I. (2023). Memory Injections: Correcting Multi-Hop Reasoning Failures during Inference in Transformer-Based Language Models. arXiv preprint arXiv:2309.05605.Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen