Fortschritte in der KI: Doppelagenten und das Verständnis von Überzeugungen durch Theory of Mind

Kategorien:

No items found.

Freigegeben:

April 14, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Forschung zeigt, dass KI-Systeme durch "Theory of Mind" (ToM) die Absichten von Gesprächspartnern besser verstehen können.
Ein neues "ToM for Steering Beliefs" (ToM-SB)-Framework ermöglicht es KI-Agenten, als "Doppelagenten" zu agieren und Angreifer gezielt in die Irre zu führen.
Aktuelle Modelle wie Gemini3-Pro und GPT-5.4 zeigen Schwächen in komplexen Szenarien mit unvollständigem Vorwissen des Angreifers.
Durch Reinforcement Learning trainierte "AI Double Agents" übertreffen bestehende Modelle in der Fähigkeit zur Täuschung und zum ToM-Verständnis.
Es besteht ein bidirektionaler Zusammenhang: Belohnung für Täuschung verbessert ToM, und Belohnung für ToM verbessert Täuschung.
Die Fähigkeit zur Modellierung von Überzeugungen ist ein zentraler Erfolgsfaktor in adversen Interaktionen.

KI als Doppelagent: Fortschritte im Verständnis und in der Steuerung von Überzeugungen

Die Fähigkeit von Künstlicher Intelligenz, die mentalen Zustände und Absichten von Interaktionspartnern zu verstehen – eine Eigenschaft, die als "Theory of Mind" (ToM) bezeichnet wird – gewinnt zunehmend an Bedeutung. Insbesondere im Kontext von Konversationssystemen und potenziell adversen Interaktionen ist ein präzises ToM-Verständnis entscheidend für eine sichere und effektive Kommunikation. Aktuelle Forschung beleuchtet hierbei innovative Ansätze, wie KI-Systeme lernen können, als "Doppelagenten" die Überzeugungen ihrer Gesprächspartner gezielt zu steuern, anstatt nur reaktiv auf Anfragen zu reagieren.

Die Herausforderung: ToM für die Überzeugungssteuerung (ToM-SB)

Ein kürzlich vorgestelltes Forschungsframework, "ToM for Steering Beliefs" (ToM-SB), stellt KI-Agenten vor eine neuartige Herausforderung. In diesem Szenario muss ein verteidigender KI-Agent als Doppelagent fungieren, um die Überzeugungen eines angreifenden Partners zu steuern, der nur über partielles Vorwissen in einem gemeinsamen Informationsuniversum verfügt. Das Ziel des Doppelagenten ist es, den Angreifer erfolgreich davon zu überzeugen, dass er sensible Informationen extrahiert hat, obwohl dies nicht der Fall ist. Dies erfordert nicht nur ein tiefes Verständnis der Überzeugungen des Angreifers, sondern auch die Fähigkeit, konsistente, aber irreführende Informationen zu liefern, ohne Misstrauen zu erregen.

Erste Evaluierungen zeigen, dass selbst fortschrittliche Modelle wie Gemini3-Pro und GPT-5.4 Schwierigkeiten mit ToM-SB haben. Sie scheitern oft daran, Angreifer in komplexen Szenarien mit unvollständigem Vorwissen erfolgreich zu täuschen, selbst wenn sie explizit dazu aufgefordert werden, über die Überzeugungen des Angreifers nachzudenken (sogenanntes ToM-Prompting). Dies unterstreicht die inhärente Komplexität der Aufgabe und die Grenzen aktueller generativer Modelle in solchen strategischen Interaktionen.

AI Double Agents: Eine neue Generation von Verteidigern

Um die identifizierten Lücken zu schließen, wurden Modelle entwickelt, die mittels Reinforcement Learning (RL) auf ToM-SB trainiert werden, um als "AI Double Agents" zu agieren. Dabei wurden sowohl Belohnungen für erfolgreiche Täuschung als auch für die Genauigkeit des ToM-Verständnisses integriert. Die Ergebnisse weisen auf einen signifikanten Fortschritt hin: Diese AI Double Agents übertreffen etablierte Modelle wie Gemini3-Pro und GPT-5.4 in schwierigen Szenarien, indem sie sowohl eine höhere Täuschungsrate als auch ein präziseres ToM-Verständnis aufweisen.

Ein bemerkenswerter Befund ist die bidirektionale Beziehung zwischen ToM und Täuschungsfähigkeit: Die alleinige Belohnung für erfolgreiche Täuschung führte zu einer Verbesserung des ToM-Verständnisses, während die alleinige Belohnung für ToM-Genauigkeit die Täuschungsfähigkeit steigerte. Dies deutet darauf hin, dass die Modellierung von Überzeugungen ein fundamentaler Treiber für den Erfolg in adversen Dialogen ist und dass diese beiden Fähigkeiten synergistisch miteinander verknüpft sind.

Methodik und Evaluierung

Die Studie umfasste vier verschiedene Angreifertypen mit unterschiedlichen Stärken, sechs Verteidigungsmethoden und sowohl In-Distribution- als auch Out-of-Distribution (OOD)-Evaluierungen. Die Korrelation zwischen ToM-Fähigkeit und Täuschungsrate war durchweg hoch, was die Bedeutung der Überzeugungsmodellierung als zentralen Erfolgsfaktor untermauert. Die Kombination beider Belohnungsarten – Täuschung und ToM – führte zu den stärksten Leistungen der AI Double Agents.

Das ToM-SB-Framework wurde zudem so konzipiert, dass es auf stärkere Angreifer erweitert werden kann, was seine Generalisierungsfähigkeit auf OOD-Einstellungen und die Skalierbarkeit der Aufgabe demonstriert. Dies ermöglicht eine kontinuierliche Weiterentwicklung und Anpassung der Verteidigungsstrategien.

Implikationen für B2B-Anwendungen und KI-Sicherheit

Die Ergebnisse dieser Forschung haben weitreichende Implikationen für B2B-Anwendungen von KI, insbesondere in Bereichen, die eine robuste Interaktion mit potenziell unkooperativen oder gar bösartigen Akteuren erfordern. Dazu gehören:

Cybersicherheit: Verteidigungssysteme könnten lernen, Angreifer durch gezielte Desinformation zu täuschen und so sensible Daten zu schützen.
Kundenservice und Verhandlungen: KI-Assistenten könnten in der Lage sein, komplexe Kundensituationen oder Verhandlungen strategisch zu steuern, um optimale Ergebnisse zu erzielen, ohne die Vertrauensbasis zu gefährden.
Datenschutz: Systeme könnten proaktiv Falschinformationen liefern, um die Extraktion sensibler Daten durch Angreifer zu verhindern, während sie gleichzeitig die Illusion der Kooperation aufrechterhalten.

Gleichzeitig wirft die Entwicklung von KI-Systemen, die zur Täuschung fähig sind, auch ethische Fragen auf. Die Forschung betont, dass die Entwicklung dieser Fähigkeiten rein als ToM-Aufgabe betrachtet wird, um zu untersuchen, welche Belohnungsmechanismen ein genaues ToM-Verständnis fördern und wie dies die Täuschungsfähigkeit beeinflusst. Es wird keine Stellungnahme dazu bezogen, ob das Irreführen anderer Agenten durch LLMs wünschenswert ist, und diese Frage wird den Modellentwicklern überlassen. Die potenziellen Missbrauchsmöglichkeiten solcher Trainingsmethoden sind jedoch unbestreitbar und erfordern eine sorgfältige Abwägung bei der Implementierung in realen Anwendungen.

Zukünftige Forschungsrichtungen

Zukünftige Arbeiten könnten sich auf die weitere Verfeinerung der ToM-Modellierung konzentrieren, um noch robustere und anpassungsfähigere AI Double Agents zu entwickeln. Dies umfasst die Erforschung komplexerer Angreiferstrategien und die Entwicklung von Verteidigungsmechanismen, die auch auf subtilere Formen der Informationsbeschaffung reagieren können. Die Integration dieser Fähigkeiten in breitere Konversations- und Interaktionssysteme wird entscheidend sein, um den Wert dieser Technologie in realen B2B-Szenarien voll auszuschöpfen.

Schlussfolgerung

Die Fähigkeit von KI-Systemen, die Überzeugungen von Interaktionspartnern zu verstehen und gezielt zu steuern, stellt einen bedeutenden Fortschritt in der Entwicklung intelligenter Agenten dar. Die "AI Double Agents", die durch Reinforcement Learning und eine kombinierte Belohnung für Täuschung und ToM-Verständnis trainiert werden, zeigen vielversprechende Ergebnisse. Sie übertreffen bestehende Modelle in der Bewältigung komplexer, adverser Dialoge. Diese Entwicklungen eröffnen neue Möglichkeiten für die Gestaltung sicherer und strategisch agierender KI-Systeme in vielfältigen B2B-Anwendungen, erfordern jedoch gleichzeitig eine kontinuierliche ethische Reflexion und sorgfältige Implementierung, um potenzielle Risiken zu minimieren.

Bibliographie

Xiao, H., Patil, V., Khan, Z., Lee, H., Stengel-Eskin, E., & Bansal, M. (2026). Playing Along: Learning a Double-Agent Defender for Belief Steering via Theory of Mind. arXiv preprint arXiv:2604.11666.
Alon, N., Schulz, L., Alon, N., Barnby, J. M., Sarkadi, S., Schulz, L., Rosenschein, J. S., & Dayan, P. (2026). ℵ-IPOMDP: Mitigating Deception in a Cognitive Hierarchy with Off-Policy Counterfactual Anomaly Detection. Journal of Artificial Intelligence Research, 85, 14.
Schulz, L., Alon, N., Rosenschein, J. S., & Dayan, P. (2023). Emergent deception and skepticism via theory of mind. Proceedings of the First Workshop on Theory of Mind in Communicating Agents, 202, 2023.
Oguntola, I. (2025). Theory of Mind in Multi-Agent Systems (Doctoral dissertation, Carnegie Mellon University).
Wang, K., Kidambi, R., Sullivan, R., Agarwal, A., Dann, C., Michi, A., ... & Leurent, E. (2024). Conditional language policy: A general framework for steerable multi-objective finetuning. Findings of the Association for Computational Linguistics: EMNLP 2024, 2153-2186.
Chen, M., Sun, R., Pfister, T., & Arık, S. Ö. (2025). Learning to clarify: Multi-turn conversations with action-based contrastive self-training. The Thirteenth International Conference on Learning Representations.
Berant, J., Chen, M., Fisch, A., Aghajani, R., Huot, F., Lapata, M., & Eisenstein, J. (2026). Learning Steerable Clarification Policies with Collaborative Self-play. arXiv preprint arXiv:2512.04068.
Sclar, M., Neubig, G., & Bisk, Y. (2022). Symmetric machine theory of mind. International Conference on Machine Learning, 19450-19466.