Sicherheitsansätze für Text-zu-Bild-Modelle: Das Conditioned Activation Transport Framework

Kategorien:

No items found.

Freigegeben:

March 4, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Der schnelle Überblick:

Text-zu-Bild-Modelle (T2I) bergen Risiken der Generierung unsicherer Inhalte.
Lineares "Activation Steering" kann die Bildqualität bei harmlosen Anfragen beeinträchtigen.
Das neue "Conditioned Activation Transport" (CAT)-Framework nutzt geometrische Konditionierung und nichtlineare Transportkarten.
CAT minimiert die Interferenz mit harmlosen Anfragen und konzentriert sich auf unsichere Aktivierungsbereiche.
Ein neues kontrastives Dataset, SafeSteerDataset, mit 2300 sicheren und unsicheren Prompt-Paaren wurde entwickelt.
CAT zeigt eine signifikante Reduzierung der "Attack Success Rate" (ASR) bei gleichzeitiger Beibehaltung der Bildqualität.
Die Methode wurde erfolgreich auf Z-Image und Infinity, zwei führenden T2I-Architekturen, validiert.

Sicherheitslenkung bei Text-zu-Bild-Modellen: Einblicke in "Conditioned Activation Transport"

Die fortschreitende Entwicklung von Text-zu-Bild-Modellen (T2I) hat zu beeindruckenden kreativen Fähigkeiten geführt. Gleichzeitig wachsen jedoch die Bedenken hinsichtlich der potenziellen Generierung von unsicheren, toxischen oder unangemessenen Inhalten. Während Ansätze wie das "Activation Steering" vielversprechende Interventionen während der Inferenzzeit bieten, zeigen aktuelle Forschungen, dass lineare Methoden oft die Bildqualität beeinträchtigen können, wenn sie auf unbedenkliche Anfragen angewendet werden. Dieser Artikel beleuchtet ein neues Framework namens "Conditioned Activation Transport" (CAT), das diesen Zielkonflikt adressiert und eine präzisere Steuerung der Modellausgaben ermöglicht.

Die Herausforderung der Sicherheit in T2I-Modellen

Die Fähigkeit von T2I-Modellen, aus Textbeschreibungen visuell ansprechende Bilder zu erzeugen, ist bemerkenswert. Allerdings sind diese Modelle, unabhängig von ihrer Architektur, anfällig für die Erzeugung unerwünschter Inhalte. Selbst ohne explizit schädliche Prompts können unsichere Ausgaben entstehen. Bestehende Schutzmechanismen, wie beispielsweise Output-Filter, bieten zwar eine erste Verteidigungslinie, doch eine robuste Sicherheit erfordert tiefere, interne Interventionen im Generierungsprozess. Viele dieser internen Methoden sind jedoch architektur-spezifisch oder mit hohem Rechenaufwand verbunden.

Grenzen des traditionellen Activation Steering

Das "Activation Steering", auch bekannt als "Representation Engineering", greift direkt in die internen Aktivierungen eines Modells während der Inferenz ein. Die Grundannahme ist, dass hochrangige Konzepte als Vektoren im latenten Raum kodiert sind. Ansätze wie "Activation Addition" (ActAdd) und "Linear Activation Transport" (Linear-ACT) versuchen, diese Aktivierungen in eine gewünschte Richtung zu lenken. ActAdd berechnet beispielsweise einen globalen Vektor basierend auf den Unterschieden zwischen sicheren und unsicheren Aktivierungszentroiden. Linear-ACT nutzt die Theorie des optimalen Transports, um eine lineare Abbildung zwischen Aktivierungsverteilungen zu lernen.

Ein wesentliches Problem dieser linearen Methoden ist ihre potenzielle Beeinträchtigung der Bildqualität bei harmlosen Prompts. Wenn die Lenkung pauschal angewendet wird, kann sie auch unbedenkliche Aktivierungen verändern, was zu unerwünschten Artefakten oder einer Verfälschung des Bildinhalts führt. Darüber hinaus basieren diese Methoden oft auf der Annahme linearer Separierbarkeit, die für die komplexen, nichtlinearen oder polyedrischen Sicherheitsmechanismen in T2I-Modellen unzureichend sein kann.

Conditioned Activation Transport (CAT): Ein neuer Ansatz

Um diese Einschränkungen zu überwinden, wurde das "Conditioned Activation Transport" (CAT)-Framework entwickelt. CAT verfolgt einen modularen Ansatz zur Sicherheitslenkung während der Inferenzzeit, der den Kompromiss zwischen Sicherheit und Bildtreue adressiert. Es besteht aus zwei Hauptkomponenten:

Nicht-lineare Transportkarten (Non-Linear Transport Maps): Im Gegensatz zu linearen Methoden verwendet CAT ein Multi-Layer Perceptron (MLP), um die komplexen Geometrien unsicherer Aktivierungsbereiche zu modellieren. Diese nicht-linearen Karten sind in der Lage, lokale Vektorfelder zu approximieren und disjunkte oder nicht-konvexe unsichere Regionen präzise auf sichere Mani-folden abzubilden. Die Initialisierung der letzten Projektionsschicht mit Nullen stellt sicher, dass die untrainierte Karte zunächst als Identitätsfunktion fungiert, um anfängliche Beeinträchtigungen des generativen Prozesses zu verhindern.
Geometrie-basierte Konditionierung (Geometry-Based Conditioning): Um die Beeinträchtigung harmloser Bilder zu minimieren, setzt CAT eine Konditionierungsmaske ein. Diese Maske stellt sicher, dass die Lenkung nur in Regionen angewendet wird, die als unsicher identifiziert wurden. Hierfür werden zwei Strategien basierend auf der Mahalanobis-Distanz vorgeschlagen:
- Probabilistische Variante: Modelliert sichere und unsichere Klassen als separate Gaußsche Verteilungen, wobei die Maske aktiviert wird, wenn die Posterior-Wahrscheinlichkeit der unsicheren Klasse einen Schwellenwert überschreitet.
- Out-of-Distribution (OOD)-Modellierung: Behandelt unsichere Beispiele als Hintergrund und sichere Beispiele als OOD. Die Konditionierung wird aktiviert, wenn die Eingabe innerhalb einer hochdichten Region liegt, definiert durch einen Quantil-Schwellenwert. Dies erzeugt eine ellipsoidale Entscheidungsgrenze, die sich der spezifischen Kovarianzstruktur des toxischen Konzepts anpasst und eine präzise Intervention ermöglicht.

Das Framework ist so konzipiert, dass es nur dann eingreift, wenn es notwendig ist, wodurch die Integrität unbedenklicher Inhalte gewahrt bleibt. Dies wird durch eine duale Verlustfunktion im Training unterstützt, die unsichere Samples mit sicheren Zielen abgleicht und gleichzeitig eine Identitätsabbildung für bereits sichere Eingaben erzwingt.

SafeSteerDataset: Eine Grundlage für präzise Lenkung

Ein entscheidender Faktor für die Wirksamkeit von CAT ist das neu entwickelte "SafeSteerDataset". Bestehende Datensätze zur T2I-Sicherheit waren nicht primär für "Activation Steering" konzipiert und boten keine semantisch eng ausgerichteten sicheren und unsicheren Prompt-Paare. Solche Paare sind jedoch unerlässlich, um die toxische Aktivierungs-Manifold präzise zu isolieren.

Das SafeSteerDataset umfasst 2300 kontrastive Paare, die in 23 detaillierte Unterkategorien einer Toxonomie unterteilt sind. Durch die Filterung auf minimale semantische Unterschiede zwischen den Paaren ermöglicht dieser Datensatz eine hochpräzise Unterscheidung zwischen sicheren und unsicheren Manifolden. Die Taxonomie deckt sechs Hochrisikokategorien ab: sexuell, Hass, Demütigung, Gewalt, illegale Aktivitäten und verstörende Inhalte.

Experimentelle Validierung und Ergebnisse

CAT wurde auf zwei hochmodernen T2I-Architekturen validiert: Z-Image (ein effizientes latentes Diffusionsmodell) und Infinity (ein autoregressives Modell für hochauflösende Bilder). Die Evaluierung erfolgte anhand zweier Metriken:

Attack Success Rate (ASR): Der Prozentsatz der gelenkten Generierungen aus unsicheren Prompts, die als unsicher klassifiziert werden. Ein niedrigerer Wert ist besser.
Text-Bild-Alignment (CLIP Score): Misst, wie gut das gelenkte Modell harmlosen Prompts folgt. Ein höherer Wert ist besser, da ein signifikanter Abfall auf eine Beeinträchtigung der Bildqualität hinweisen würde.

Die Ergebnisse zeigen, dass CAT einen überlegenen Kompromiss zwischen Sicherheit und Nutzen erreicht. Bei Z-Image reduzierte CAT die ASR signifikant von 33,91% auf 6,96% bei gleichzeitiger Beibehaltung der semantischen Ausrichtung (CLIP-Score von 0,33). Im Vergleich dazu führten lineare Baselines entweder zu höheren ASRs oder zu einer erheblichen Verschlechterung der Bildqualität.

Besonders hervorzuheben ist, dass CAT die Bildqualität auch bei starken Sicherheitsinterventionen aufrechterhalten konnte. Bei Infinity beispielsweise führte Linear-ACT zwar zu einer niedrigen ASR von 2,61%, aber zu einem drastischen Einbruch der CLIP-Werte auf 0,16, was im Wesentlichen unerkennbare oder zerstörte Bilder bedeutet. CAT hingegen erreichte eine ASR von 4,78% bei einem hohen CLIP-Score von 0,32.

Diese Ergebnisse deuten darauf hin, dass die von linearen Methoden erzielte Sicherheit oft ein Nebeneffekt der Bildkorruption ist, anstatt einer präzisen Entfernung von Konzepten. CATs Fähigkeit, den Nutzen zu erhalten und gleichzeitig die Toxizität zu reduzieren, liefert starke empirische Beweise dafür, dass Sicherheit in T2I-Modellen geometrisch komplex ist und nicht durch das Durchlaufen einer einzigen linearen Richtung gelöst werden kann.

Der Einfluss der Konditionierung und Modalitätenlenkung

Die Studien zeigten zudem, dass die Konditionierung einen entscheidenden Einfluss hat. Das Anwenden der Konditionierung verbesserte die Bildqualität erheblich, auch wenn dies mit einem leichten Anstieg der unsicheren Bilder einhergehen konnte. Die geometrie-basierten Konditionierungsstrategien von CAT erwiesen sich hierbei als robuster als einfache Begrenzungsrahmen.

Auch die Lenkung über verschiedene Modalitäten hinweg (Text-Encoder und Vision-Backbone) wurde untersucht. Es zeigte sich, dass eine robuste Sicherheit eine multimodale Intervention erfordert. Die gleichzeitige Lenkung beider Modalitäten führte zu einem synergistischen Effekt: Die Textlenkung neutralisierte die semantische Anfrage, während die Visionslenkung die generative Trajektorie korrigierte, was zu den besten ASR-Werten ohne Qualitätseinbußen führte.

Fazit und Ausblick

Das "Conditioned Activation Transport" (CAT)-Framework stellt einen signifikanten Fortschritt in der Sicherheitslenkung von Text-zu-Bild-Modellen dar. Durch die Kombination nicht-linearer Transportkarten mit einer geometrie-basierten, schichtweisen Konditionierung ermöglicht CAT eine präzise und effiziente Reduzierung unsicherer Inhalte, ohne die Qualität unbedenklicher Bildgenerierungen zu beeinträchtigen. Die Entwicklung des SafeSteerDatasets bietet zudem eine wertvolle Ressource für zukünftige Forschungen in diesem Bereich.

Obwohl die Methode vielversprechend ist, gibt es noch Raum für weitere Entwicklungen. Aktuell operiert CAT auf mittelgemittelten Aktivierungen, was potenziell räumlich lokalisierte unsichere Merkmale übersehen könnte. Zukünftige Arbeiten könnten sich auf token- oder regionenbasierte Mechanismen konzentrieren, um diese Einschränkung zu adressieren. Dennoch bietet CAT einen wichtigen Baustein für die Entwicklung sichererer und zuverlässigerer generativer KI-Systeme und unterstreicht die Bedeutung eines differenzierten Verständnisses der internen Modellmechanismen.

Bibliography: - Chrabąszcz, M., Szymczyk, A., Dubiński, J., Trzciński, T., Boenisch, F., & Dziedzic, A. (2026). Conditioned Activation Transport for T2I Safety Steering. *arXiv preprint arXiv:2603.03163*. - Rodriguez, P., Blaas, A., Klein, M., Zappella, L., Apostoloff, N., Cuturi, M., & Suau, X. (2025). Controlling Language and Diffusion Models by Transporting Activations. *The Thirteenth International Conference on Learning Representations (ICLR 2025)*. - Rodriguez, P., Klein, M., Gualdoni, E., Maiorca, V., Blaas, A., Zappella, L., Cuturi, M., & Suau, X. (2025). LinEAS: End-to-end Learning of Activation Steering with a Distributional Loss. *NeurIPS 2025*. - Zou, A., Phan, L., Chen, S., Campbell, J., Guo, P., Ren, R., Pan, A., Yin, X., Mazeika, M., Dombrowski, A.-K., et al. (2023). Representation engineering: A top-down approach to AI transparency. *arXiv preprint arXiv:2310.01405*.