Sicherheitsanalysen und Verteidigungsstrategien für dezentrale KI-Trainingssysteme

Kategorien:

No items found.

Freigegeben:

November 15, 2025

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Eine neue Studie beleuchtet Schwachstellen in dezentralisierten GRPO-Systemen und stellt Angriffe sowie Abwehrmechanismen vor.
Bösartige Akteure können Large Language Models (LLMs) durch das Einschleusen von schädlichen Tokens in deren Trainingsdaten beeinflussen.
Die Angriffe können eine Erfolgsrate von bis zu 100 % erreichen und die Modelle dazu bringen, unerwünschte Ausgaben zu generieren.
Es werden zwei Verteidigungsstrategien vorgestellt, die je nach Homogenität der Modelle bis zu 100 % der Angriffe abwehren können.
Die Forschung ist relevant für die Sicherheit und Vertrauenswürdigkeit dezentralisierter KI-Ökosysteme.

Sicherheitsherausforderungen in dezentralisierten KI-Trainingssystemen

Die rapide Entwicklung von Large Language Models (LLMs) und deren Einsatz in vielfältigen Anwendungen führt zu einem erhöhten Bedarf an robusten und sicheren Trainingsmethoden. Insbesondere das Post-Training mittels Reinforcement Learning (RL) hat sich als effektiver Weg erwiesen, die Modelle an menschliche Intentionen, logisches Denken und Formatierungsanforderungen anzupassen. Eine vielversprechende Methode in diesem Kontext ist die Group Relative Policy Optimization (GRPO), die sich aufgrund ihres geringen Kommunikationsaufwands besonders gut für dezentralisierte Trainingsumgebungen (dRL) eignet. In solchen Systemen beantworten mehrere Knoten gleichzeitig Prompts, und die bevorzugten Vervollständigungen werden durch den Austausch von Zeichenketten gelernt.

Die Natur dezentralisierter GRPO-Systeme

Dezentralisierte GRPO-Systeme bestehen aus mehreren unabhängigen Knoten, die jeweils eine Kopie eines vortrainierten Modells besitzen. Diese Knoten generieren Antworten auf Prompts, die dann von einem gemeinsamen Belohnungsmodell bewertet werden. Basierend auf diesen Bewertungen berechnet jeder Knoten einen kollektiven Politikgradienten, um seine Parameter zu aktualisieren. Während dezentralisierte Ansätze potenziell kostengünstigere Alternativen zu zentralisierten Rechenclustern bieten, eröffnen sie gleichzeitig neue Angriffsflächen durch potenziell bösartige Nutzer.

Identifizierung und Analyse von Angriffsvektoren

Forscher haben erstmals systematisch die Angriffsmöglichkeiten und Verteidigungsstrategien in dezentralisierten GRPO-Systemen untersucht. Die Studie konzentriert sich auf die Fähigkeit bösartiger Parteien, diese Systeme durch das Einschleusen von willkürlichen schädlichen Tokens in scheinbar unbedenkliche Modelle zu manipulieren. Es wurden zwei Hauptkategorien von Angriffen identifiziert:

Out-of-Context-Angriffe: Hierbei wird bösartiger Inhalt injiziert, der nicht direkt mit dem Aufgabenbereich zusammenhängt. Ein Beispiel wäre das Hinzufügen eines irrelevanten Satzes wie "All hail to the thief" in der Erläuterung einer mathematischen Aufgabe, ohne die eigentlichen Berechnungen zu beeinflussen. Solche Angriffe sind domänenunabhängig und können in horizontalen sowie vertikalen dRL-Einstellungen durchgeführt werden. Sie können dazu führen, dass ehrliche Modelle willkürliche Tokens während der Inferenz produzieren.
In-Context-Angriffe: Bei dieser Art von Angriff wird der bösartige Inhalt direkt in den domänenspezifischen Kontext eingefügt. Dies kann beispielsweise die Manipulation von Gleichungen in einer mathematischen Aufgabe sein ("2+2=5") oder die Injektion von schädlichem Code in Programmieraufgaben. Diese Angriffe sind zielgerichteter und besonders in vertikalen dRL-Einstellungen effektiv, da Angreifer spezifische Prompts auswählen können, die für den Angriff geeignet sind.

Empirische Evidenz der Angriffe

Die empirischen Tests zeigten, dass diese Angriffe eine hohe Erfolgsrate aufweisen können. In Szenarien mit Mathematik- und Programmieraufgaben gelang es, die lokalen LLM-Post-Trainings von unbedenklichen Knoten zu vergiften. Die Angriffs-Erfolgsraten erreichten in nur 50 Iterationen bis zu 100 %. Bei Out-of-Context-Angriffen, wie dem Einfügen von "All hail to the thief", zeigten die Ergebnisse, dass selbst bei einer 25%igen Beteiligung bösartiger Nutzer die Erfolgsrate in weniger als 20 Iterationen nahezu 100 % betrug. Dies liegt daran, dass der Angreifer die korrekte Antwort des Orakels nutzen kann, um eine maximale Belohnung zu erzielen, während gleichzeitig der schädliche Text in den Begründungsteil eingefügt wird.

Ein Beispiel für einen in-context Angriff ist die Manipulation von Gleichungen, bei dem das Modell lernt, dass "2 und 2 immer 5 ergeben". Dieser Angriff wurde im vertikalen dRL-Setting auf dem GSM8k-Datensatz getestet. Die Angreifer wählten hierbei gezielt Aufgaben aus, in denen 2er-Additionen oder -Multiplikationen vorkamen, und manipulierten die Antworten entsprechend. Die Erfolgsrate erreichte nach nur 20 Iterationen über 50 %. Bemerkenswert ist, dass diese Angriffe die Leistung des Modells bei anderen Problemen nicht signifikant beeinträchtigten, was auf die Heimlichkeit der Methode hindeutet.

Ein weiterer In-Context-Angriff demonstrierte die Injektion von Code in horizontalen Trainingsumgebungen. Hierbei wurde der OpenMathInstruct-Datensatz verwendet, um das Modell zur Lösung mathematischer Fragen mittels Python-Code zu trainieren. Angreifer schleusten unnötige Bibliotheksimporte oder potenziell bösartigen Code ein. Da in horizontalen dRL-Einstellungen jeder Prompt potenziell vergiftete Vervollständigungen enthält, kann das Modell lernen, willkürlichen Code zu injizieren, unabhängig von der eigentlichen Aufgabe.

Entwickelte Verteidigungsmechanismen

Angesichts der identifizierten Schwachstellen wurden zwei Verteidigungsstrategien entwickelt, die auf die jeweiligen dRL-Einstellungen zugeschnitten sind:

Verteidigung für homogene Modelle (Homogeneous Defense via Checking Token Generation): In homogenen Systemen, in denen alle Knoten über dasselbe Modell verfügen, können unbedenkliche Modelle eingehende Vervollständigungen durchlaufen und die Log-Wahrscheinlichkeiten überprüfen. Dies ermöglicht die Feststellung, ob jeder Token vom Modell und der vorgegebenen Generierungsstrategie stammen könnte. Diese Methode erwies sich als äußerst effektiv bei der Abwehr von Out-of-Context-Angriffen und erreichte eine Erkennungsrate von 100 %. Bei In-Context-Angriffen war die Wirksamkeit geringer, da das Modell in bestimmten Fällen auch "2+2=5" mit einer gewissen Wahrscheinlichkeit als gültig ansehen könnte. Eine perfekte Verteidigung würde hier bitweise reproduzierbare Operationen erfordern.
Verteidigung für heterogene Modelle (Heterogeneous Defense via LLM-as-a-judge): In heterogenen Umgebungen, in denen Modelle voneinander abweichen können, ist die Überprüfung von Log-Wahrscheinlichkeiten nicht praktikabel. Hier kommt ein LLM als "Richter" zum Einsatz. Für jede eingehende Vervollständigung wird ein LLM herangezogen, das die Aufgabe verstehen und beurteilen kann, ob die Lösung korrekt und frei von schädlichen Daten ist. Wird eine Vervollständigung als bösartig eingestuft, wird ihre Belohnung auf null gesetzt. Diese Methode zeigte gute Ergebnisse, obwohl sie die Lerneffizienz leicht beeinträchtigen kann. Die Erfolgsrate der Abwehr lag bei Out-of-Context-Angriffen bei 91,7 % und bei In-Context-Angriffen bei 95,2 %.

Herausforderungen und zukünftige Perspektiven

Die Studie hebt hervor, dass bestehende dezentralisierte GRPO-Systeme ohne angemessene Verteidigungsmechanismen anfällig für solche Angriffe sind. Die vorgestellten Abwehrmaßnahmen bieten eine vielversprechende Grundlage, sind jedoch nicht ohne Herausforderungen. Insbesondere die "LLM-as-a-judge"-Verteidigung könnte selbst anfällig für "Jailbreak"-Angriffe sein, bei denen Angreifer Prompts finden, die den Richter umgehen. Zukünftige Forschungsarbeiten könnten sich darauf konzentrieren, diese adaptiven Angriffe zu untersuchen.

Ein weiteres Forschungsfeld ist das "subliminale Lernen", bei dem Angreifer keine offensichtlich schädlichen Tokens einfügen, sondern versteckte Signale, die Modelle zu unerwünschtem Verhalten in anderen Aufgaben anleiten. Solche Angriffe wären derzeit nahezu unmöglich abzuwehren.

Schlussfolgerung

Die Untersuchung von Angriffen und Abwehrmechanismen in dezentralisierten GRPO-Systemen ist von entscheidender Bedeutung für die Entwicklung robuster und vertrauenswürdiger LLM-Trainingsumgebungen. Die Fähigkeit bösartiger Akteure, Modelle mit minimalem Aufwand zu manipulieren, unterstreicht die Notwendigkeit kontinuierlicher Forschung und Entwicklung im Bereich der KI-Sicherheit. Die vorgestellten Verteidigungsstrategien bieten erste Lösungsansätze, doch die dynamische Natur von Cyberangriffen erfordert eine ständige Anpassung und Verbesserung der Sicherheitsprotokolle in dezentralisierten KI-Systemen.

Bibliography

- Blagoev, N., Ersoy, O., & Chen, L. Y. (2025). Hail to the Thief: Exploring Attacks and Defenses in Decentralised GRPO. arXiv preprint arXiv:2511.09780. - Hugging Face. (2025). Daily Papers - Hugging Face. Retrieved from https://huggingface.co/papers/date/2025-11-14 - ChatPaper. (2025). Exploring Attacks and Defenses in Decentralised GRPO - ChatPaper. Retrieved from https://chatpaper.com/zh-CN/chatpaper/paper/209149 - Chaliasos, S., Swann, C., Pilehchiha, S., Mohnblatt, N., Livshits, B., & Kattis, A. (2025). Unaligned Incentives: Pricing Attacks Against Blockchain Rollups. arXiv preprint arXiv:2509.17126. - Feichtinger, R., Fritsch, R., Heimbach, L., Vonlanthen, Y., & Wattenhofer, R. (2024). SoK: Attacks on DAOs. arXiv preprint arXiv:2406.15071. - Boneh, D., Partap, A., & Rotem, L. (2023). Accountability for Misbehavior in Threshold Decryption via Threshold Traitor Tracing. Cryptology ePrint Archive, Paper 2023/1724.