Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die rasante Entwicklung von KI-Agenten, die zunehmend komplexe Aufgaben autonom ausführen, birgt erhebliche Herausforderungen in Bezug auf deren Sicherheit und Zuverlässigkeit. Bestehende Sicherheitsmechanismen, oft als "Guardrails" bezeichnet, konzentrieren sich häufig auf die binäre Klassifizierung von Inhalten als sicher oder unsicher. Diese Ansätze reichen jedoch nicht aus, um die vielschichtigen Risikoprofile autonomer Agenten, die Werkzeuge nutzen und mit dynamischen Umgebungen interagieren, vollständig zu erfassen und zu diagnostizieren.
In diesem Kontext stellt das Forschungsprojekt "AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security" einen bedeutenden Fortschritt dar. Es bietet einen neuartigen Ansatz zur Verbesserung der Sicherheit von KI-Agenten, indem es über einfache binäre Labels hinausgeht und eine detaillierte Diagnose der Ursachen unsicherer Handlungen ermöglicht. Dieser Artikel beleuchtet die Kernaspekte von AgentDoG, seine zugrunde liegende Taxonomie, den entwickelten Benchmark ATBench und die Rolle der Explainable AI (XAI) bei der Transparenz von Agentenentscheidungen.
Ein zentrales Element von AgentDoG ist eine innovative dreidimensionale Taxonomie zur Kategorisierung von Risiken bei KI-Agenten. Diese Taxonomie zerlegt potenzielle Gefahren orthogonal in drei Hauptkategorien, um ein umfassenderes Verständnis der Risikolandschaft zu ermöglichen:
Diese Dimension identifiziert den Ursprung eines potenziellen Risikos innerhalb des Interaktionszyklus eines Agenten. Sie umfasst vier Hauptklassen:
Diese Dimension beschreibt, wie ein Risiko durch das Verhalten oder die Ausgaben des Agenten realisiert wird, nachdem eine Risikoquelle eingeführt wurde. Sie unterteilt sich in zwei Hauptkategorien:
Diese Dimension erfasst die realen Auswirkungen, die aus unsicherem Agentenverhalten resultieren. Sie konzentriert sich auf die Konsequenzen der Fehler und nicht auf deren Ursachen oder Mechanismen:
Diese umfassende Taxonomie ermöglicht eine präzise Identifizierung und Klassifizierung von Risiken, die für herkömmliche Guardrails oft unsichtbar bleiben.
Um die Wirksamkeit von AgentDoG zu bewerten und die Entwicklung sichererer KI-Agenten zu fördern, wurde der "Agent Trajectory Safety and Security Benchmark" (ATBench) entwickelt. Dieser Benchmark adressiert die Einschränkungen bestehender Sicherheits-Benchmarks, die oft eine begrenzte Tool-Vielfalt, kurze Trajektorien und keine detaillierte Fehlerdiagnose bieten.
ATBench umfasst 500 vollständige Ausführungstrajektorien, die gleichmäßig auf sichere und unsichere Instanzen verteilt sind. Diese Trajektorien zeichnen sich durch komplexe, mehrstufige Interaktionen mit durchschnittlich 8,97 Schritten und der Nutzung von 1.575 einzigartigen Tools aus. Dies gewährleistet eine hohe Diversität der Interaktionsmuster und eine realistische Abbildung von realen Agenten-Einsatzszenarien.
Die Annotationsprozesse für ATBench folgen strikt der dreidimensionalen Sicherheitstaxonomie von AgentDoG. Jede Trajektorie erhält ein binäres Urteil ("sicher" oder "unsicher"). Unsichere Trajektorien werden zusätzlich mit feingranularen Labels für Risikoquelle, Fehlermodus und realen Schaden versehen. Dies ermöglicht eine präzise Risikozuschreibung und Diagnose, die über einfache Ja/Nein-Entscheidungen hinausgeht.
AgentDoG bietet nicht nur eine verbesserte Klassifizierung von Risiken, sondern auch eine detaillierte kontextuelle Überwachung der gesamten Agenten-Trajektorien. Dies ist entscheidend, da unsicheres Verhalten oft aus Zwischenaktionen oder Umgebungsinformationen resultieren kann, selbst wenn die finale Antwort des Agenten harmlos erscheint.
Das Framework kann die Grundursachen unsicherer Aktionen diagnostizieren und bietet Transparenz über die Herkunft von Problemen. Beispielsweise kann es erkennen, ob ein Agent eine bösartige Tool-Ausführung vornimmt oder einer Prompt-Injection zum Opfer fällt. Die Varianten von AgentDoG sind in verschiedenen Größen (4B, 7B und 8B Parameter) für Qwen- und Llama-Modellfamilien verfügbar, was ihre Anpassungsfähigkeit an unterschiedliche Anwendungsfälle unterstreicht.
Umfassende experimentelle Ergebnisse zeigen, dass AgentDoG eine überlegene Leistung bei der Moderation der Agenten-Sicherheit in vielfältigen und komplexen interaktiven Szenarien erzielt. Es übertrifft dabei bestehende Guard-Modelle, die oft an einem Mangel an Risikobewusstsein für Agenten und fehlender Transparenz in der Risikodiagnose leiden.
Ein weiterer entscheidender Aspekt von AgentDoG ist die Integration eines Explainable AI (XAI)-Moduls. Dieses Modul geht über die bloße Risikokategorisierung hinaus und ermöglicht es, die internen Faktoren zu verstehen, die spezifische Agentenaktionen antreiben.
Die XAI-Komponente kann hierarchische Attributionsdiagnosen auf Agenten-Trajektorien durchführen. Sie quantifiziert den Beitrag vorhergehender Schritte und ihrer internen Sätze zur Generierung einer Zielaktion. Dies geschieht auf zwei Ebenen:
Diese detaillierte Attributionsanalyse ist besonders wertvoll, um die Ursachen von Fehlern zu verstehen, die auf den ersten Blick harmlos erscheinen, aber dennoch fehlerhaft oder nicht auf die Ziele abgestimmt sind. Fallstudien, wie die Erkennung von Prompt-Injections in Bewerbungsszenarien oder die Fehlinterpretation von Sarkasmus in Finanzanalysen, illustrieren die Fähigkeit von AgentDoG, die wahren Treiber hinter Agentenentscheidungen aufzudecken.
Ein Vergleich mit Basismodellen zeigt, dass das Sicherheitstraining von AgentDoG die Fähigkeit des Modells verbessert, die internen Treiber risikobehafteter Verhaltensweisen von Agenten zu identifizieren. Dies führt zu einer robusteren und granulareren Agenten-Attribution, die eine Brücke zwischen Erkennung und Diagnose schlägt und eine entscheidende Grundlage für den verantwortungsvollen Einsatz von Agentensystemen bildet.
Obwohl AgentDoG einen vielversprechenden Ansatz zur Verbesserung der Sicherheit von KI-Agenten darstellt, gibt es weiterhin Herausforderungen und zukünftige Forschungsrichtungen.
AgentDoG leistet einen wesentlichen Beitrag zur Erhöhung der Transparenz und Zuverlässigkeit von KI-Agenten, indem es eine detaillierte Diagnose von Risiken entlang der gesamten Ausführungstrajektorie ermöglicht. Die offene Veröffentlichung der Modelle und Datensätze fördert zudem die weitere Forschung und Entwicklung in diesem kritischen Bereich der KI-Sicherheit.
Bibliography - Liu, D., Ren, Q., Qian, C., Shao, S., Xie, Y., Li, Y., ... & Hu, X. (2026). AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security. arXiv preprint arXiv:2601.18491. - Ou, T., Guo, W., Gandhi, A., Neubig, G., & Yue, X. (2025). AgentDiagnose: An Open Toolkit for Diagnosing LLM Agent Trajectories. Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing: System Demonstrations, 207-215. - Zhang, J., Xiong, C., & Wu, C. (2026). Agentic Confidence Calibration. arXiv preprint arXiv:2601.15778. - Xiang, Z., Zheng, L., Li, Y., Hong, J., Li, Q., Xie, H., ... & Li, B. (2025). GuardAgent: Safeguard LLM Agents by a Guard Agent via Knowledge-Enabled Reasoning. arXiv preprint arXiv:2406.09187. - Anonymous Authors (2025). WHERE LLM AGENTS FAIL AND HOW THEY CAN LEARN FROM FAILURES. Paper under double-blind review at ICLR 2026. - Praneeth, E. (2025). MCP Agent Action Guard: Safe AI Agents through Action Classifier. - ChatPaper. (2026). AgentDoG: A Diagnostic Guardrail Framework for AI Agent Safety and Security. chatpaper.com/de/paper/229348Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen