Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die fortschreitende Entwicklung von Text-zu-Bild-Modellen (T2I) hat zu beeindruckenden kreativen Fähigkeiten geführt. Gleichzeitig wachsen jedoch die Bedenken hinsichtlich der potenziellen Generierung von unsicheren, toxischen oder unangemessenen Inhalten. Während Ansätze wie das "Activation Steering" vielversprechende Interventionen während der Inferenzzeit bieten, zeigen aktuelle Forschungen, dass lineare Methoden oft die Bildqualität beeinträchtigen können, wenn sie auf unbedenkliche Anfragen angewendet werden. Dieser Artikel beleuchtet ein neues Framework namens "Conditioned Activation Transport" (CAT), das diesen Zielkonflikt adressiert und eine präzisere Steuerung der Modellausgaben ermöglicht.
Die Fähigkeit von T2I-Modellen, aus Textbeschreibungen visuell ansprechende Bilder zu erzeugen, ist bemerkenswert. Allerdings sind diese Modelle, unabhängig von ihrer Architektur, anfällig für die Erzeugung unerwünschter Inhalte. Selbst ohne explizit schädliche Prompts können unsichere Ausgaben entstehen. Bestehende Schutzmechanismen, wie beispielsweise Output-Filter, bieten zwar eine erste Verteidigungslinie, doch eine robuste Sicherheit erfordert tiefere, interne Interventionen im Generierungsprozess. Viele dieser internen Methoden sind jedoch architektur-spezifisch oder mit hohem Rechenaufwand verbunden.
Das "Activation Steering", auch bekannt als "Representation Engineering", greift direkt in die internen Aktivierungen eines Modells während der Inferenz ein. Die Grundannahme ist, dass hochrangige Konzepte als Vektoren im latenten Raum kodiert sind. Ansätze wie "Activation Addition" (ActAdd) und "Linear Activation Transport" (Linear-ACT) versuchen, diese Aktivierungen in eine gewünschte Richtung zu lenken. ActAdd berechnet beispielsweise einen globalen Vektor basierend auf den Unterschieden zwischen sicheren und unsicheren Aktivierungszentroiden. Linear-ACT nutzt die Theorie des optimalen Transports, um eine lineare Abbildung zwischen Aktivierungsverteilungen zu lernen.
Ein wesentliches Problem dieser linearen Methoden ist ihre potenzielle Beeinträchtigung der Bildqualität bei harmlosen Prompts. Wenn die Lenkung pauschal angewendet wird, kann sie auch unbedenkliche Aktivierungen verändern, was zu unerwünschten Artefakten oder einer Verfälschung des Bildinhalts führt. Darüber hinaus basieren diese Methoden oft auf der Annahme linearer Separierbarkeit, die für die komplexen, nichtlinearen oder polyedrischen Sicherheitsmechanismen in T2I-Modellen unzureichend sein kann.
Um diese Einschränkungen zu überwinden, wurde das "Conditioned Activation Transport" (CAT)-Framework entwickelt. CAT verfolgt einen modularen Ansatz zur Sicherheitslenkung während der Inferenzzeit, der den Kompromiss zwischen Sicherheit und Bildtreue adressiert. Es besteht aus zwei Hauptkomponenten:
Das Framework ist so konzipiert, dass es nur dann eingreift, wenn es notwendig ist, wodurch die Integrität unbedenklicher Inhalte gewahrt bleibt. Dies wird durch eine duale Verlustfunktion im Training unterstützt, die unsichere Samples mit sicheren Zielen abgleicht und gleichzeitig eine Identitätsabbildung für bereits sichere Eingaben erzwingt.
Ein entscheidender Faktor für die Wirksamkeit von CAT ist das neu entwickelte "SafeSteerDataset". Bestehende Datensätze zur T2I-Sicherheit waren nicht primär für "Activation Steering" konzipiert und boten keine semantisch eng ausgerichteten sicheren und unsicheren Prompt-Paare. Solche Paare sind jedoch unerlässlich, um die toxische Aktivierungs-Manifold präzise zu isolieren.
Das SafeSteerDataset umfasst 2300 kontrastive Paare, die in 23 detaillierte Unterkategorien einer Toxonomie unterteilt sind. Durch die Filterung auf minimale semantische Unterschiede zwischen den Paaren ermöglicht dieser Datensatz eine hochpräzise Unterscheidung zwischen sicheren und unsicheren Manifolden. Die Taxonomie deckt sechs Hochrisikokategorien ab: sexuell, Hass, Demütigung, Gewalt, illegale Aktivitäten und verstörende Inhalte.
CAT wurde auf zwei hochmodernen T2I-Architekturen validiert: Z-Image (ein effizientes latentes Diffusionsmodell) und Infinity (ein autoregressives Modell für hochauflösende Bilder). Die Evaluierung erfolgte anhand zweier Metriken:
Die Ergebnisse zeigen, dass CAT einen überlegenen Kompromiss zwischen Sicherheit und Nutzen erreicht. Bei Z-Image reduzierte CAT die ASR signifikant von 33,91% auf 6,96% bei gleichzeitiger Beibehaltung der semantischen Ausrichtung (CLIP-Score von 0,33). Im Vergleich dazu führten lineare Baselines entweder zu höheren ASRs oder zu einer erheblichen Verschlechterung der Bildqualität.
Besonders hervorzuheben ist, dass CAT die Bildqualität auch bei starken Sicherheitsinterventionen aufrechterhalten konnte. Bei Infinity beispielsweise führte Linear-ACT zwar zu einer niedrigen ASR von 2,61%, aber zu einem drastischen Einbruch der CLIP-Werte auf 0,16, was im Wesentlichen unerkennbare oder zerstörte Bilder bedeutet. CAT hingegen erreichte eine ASR von 4,78% bei einem hohen CLIP-Score von 0,32.
Diese Ergebnisse deuten darauf hin, dass die von linearen Methoden erzielte Sicherheit oft ein Nebeneffekt der Bildkorruption ist, anstatt einer präzisen Entfernung von Konzepten. CATs Fähigkeit, den Nutzen zu erhalten und gleichzeitig die Toxizität zu reduzieren, liefert starke empirische Beweise dafür, dass Sicherheit in T2I-Modellen geometrisch komplex ist und nicht durch das Durchlaufen einer einzigen linearen Richtung gelöst werden kann.
Die Studien zeigten zudem, dass die Konditionierung einen entscheidenden Einfluss hat. Das Anwenden der Konditionierung verbesserte die Bildqualität erheblich, auch wenn dies mit einem leichten Anstieg der unsicheren Bilder einhergehen konnte. Die geometrie-basierten Konditionierungsstrategien von CAT erwiesen sich hierbei als robuster als einfache Begrenzungsrahmen.
Auch die Lenkung über verschiedene Modalitäten hinweg (Text-Encoder und Vision-Backbone) wurde untersucht. Es zeigte sich, dass eine robuste Sicherheit eine multimodale Intervention erfordert. Die gleichzeitige Lenkung beider Modalitäten führte zu einem synergistischen Effekt: Die Textlenkung neutralisierte die semantische Anfrage, während die Visionslenkung die generative Trajektorie korrigierte, was zu den besten ASR-Werten ohne Qualitätseinbußen führte.
Das "Conditioned Activation Transport" (CAT)-Framework stellt einen signifikanten Fortschritt in der Sicherheitslenkung von Text-zu-Bild-Modellen dar. Durch die Kombination nicht-linearer Transportkarten mit einer geometrie-basierten, schichtweisen Konditionierung ermöglicht CAT eine präzise und effiziente Reduzierung unsicherer Inhalte, ohne die Qualität unbedenklicher Bildgenerierungen zu beeinträchtigen. Die Entwicklung des SafeSteerDatasets bietet zudem eine wertvolle Ressource für zukünftige Forschungen in diesem Bereich.
Obwohl die Methode vielversprechend ist, gibt es noch Raum für weitere Entwicklungen. Aktuell operiert CAT auf mittelgemittelten Aktivierungen, was potenziell räumlich lokalisierte unsichere Merkmale übersehen könnte. Zukünftige Arbeiten könnten sich auf token- oder regionenbasierte Mechanismen konzentrieren, um diese Einschränkung zu adressieren. Dennoch bietet CAT einen wichtigen Baustein für die Entwicklung sichererer und zuverlässigerer generativer KI-Systeme und unterstreicht die Bedeutung eines differenzierten Verständnisses der internen Modellmechanismen.
Bibliography: - Chrabąszcz, M., Szymczyk, A., Dubiński, J., Trzciński, T., Boenisch, F., & Dziedzic, A. (2026). Conditioned Activation Transport for T2I Safety Steering. *arXiv preprint arXiv:2603.03163*. - Rodriguez, P., Blaas, A., Klein, M., Zappella, L., Apostoloff, N., Cuturi, M., & Suau, X. (2025). Controlling Language and Diffusion Models by Transporting Activations. *The Thirteenth International Conference on Learning Representations (ICLR 2025)*. - Rodriguez, P., Klein, M., Gualdoni, E., Maiorca, V., Blaas, A., Zappella, L., Cuturi, M., & Suau, X. (2025). LinEAS: End-to-end Learning of Activation Steering with a Distributional Loss. *NeurIPS 2025*. - Zou, A., Phan, L., Chen, S., Campbell, J., Guo, P., Ren, R., Pan, A., Yin, X., Mazeika, M., Dombrowski, A.-K., et al. (2023). Representation engineering: A top-down approach to AI transparency. *arXiv preprint arXiv:2310.01405*.Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen