Die universelle visuelle Anomalieerkennung zielt darauf ab, Anomalien in neuen oder unbekannten Bildbereichen zu identifizieren, ohne dass eine zusätzliche Feinabstimmung erforderlich ist. Dies ist besonders in offenen Szenarien von entscheidender Bedeutung, in denen die Art der Anomalien im Voraus nicht bekannt ist. Bisherige Ansätze, die auf vortrainierten Vision-Language-Modellen wie CLIP basieren, zeigen zwar vielversprechende Ergebnisse, kämpfen jedoch oft mit der Gestaltung von Prompt-Templates, komplexen Token-Interaktionen oder benötigen zusätzliche Feinabstimmung. Dies schränkt ihre Flexibilität und Anwendbarkeit ein.
Eine neue Methode namens AdaptCLIP verspricht hier Abhilfe. AdaptCLIP basiert auf zwei zentralen Erkenntnissen: Erstens sollten adaptive visuelle und textuelle Repräsentationen abwechselnd und nicht gemeinsam gelernt werden. Zweitens sollte das vergleichende Lernen zwischen Abfrage- und Normalbild-Prompts sowohl kontextuelle als auch ausgerichtete Restmerkmale berücksichtigen, anstatt sich ausschließlich auf Restmerkmale zu verlassen. Der innovative Ansatz von AdaptCLIP behandelt CLIP-Modelle als grundlegende Dienstleistung und fügt lediglich drei einfache Adapter hinzu: einen visuellen Adapter, einen textuellen Adapter und einen Prompt-Query-Adapter. Diese Adapter werden an den Ein- oder Ausgangspunkten des CLIP-Modells platziert.
Ein wesentlicher Vorteil von AdaptCLIP ist seine Fähigkeit zur Zero-/Few-Shot-Generalisierung über verschiedene Domänen hinweg. Das bedeutet, dass das Modell nach dem Training auf einem Basisdatensatz ohne weiteres Training auf Zieldomänen angewendet werden kann. Diese Flexibilität ist besonders in realen Anwendungen von großem Wert, wo oft nur begrenzte Daten für neue Domänen verfügbar sind.
In Tests auf zwölf Benchmark-Datensätzen aus Industrie und Medizin erzielte AdaptCLIP herausragende Ergebnisse und übertraf bestehende Methoden deutlich. Dies unterstreicht das Potenzial von AdaptCLIP, die visuelle Anomalieerkennung in verschiedenen Anwendungsbereichen zu revolutionieren. Die Entwickler von AdaptCLIP planen, den Code und das Modell öffentlich zugänglich zu machen, um die Forschung und Entwicklung in diesem Bereich weiter voranzutreiben.
AdaptCLIP nutzt die Stärke von vortrainierten CLIP-Modellen und erweitert diese durch drei spezifische Adapter. Der visuelle Adapter passt die visuellen Merkmale an die jeweilige Domäne an. Der Text-Adapter optimiert die textuelle Repräsentation der Normalitätsbeschreibung. Der Prompt-Query-Adapter schließlich ermöglicht einen effektiven Vergleich zwischen der Abfrage und den Normalbild-Prompts. Durch das abwechselnde Lernen der visuellen und textuellen Repräsentationen und die Integration von kontextuellen und ausgerichteten Restmerkmalen erreicht AdaptCLIP eine verbesserte Genauigkeit bei der Anomalieerkennung.
Die universelle Anomalieerkennung mit AdaptCLIP eröffnet vielfältige Anwendungsmöglichkeiten. In der industriellen Qualitätskontrolle kann AdaptCLIP beispielsweise dazu eingesetzt werden, Produktionsfehler automatisch zu erkennen. In der Medizin kann das Verfahren bei der Diagnose von Krankheiten anhand von medizinischen Bildern unterstützen. Weitere potenzielle Anwendungsgebiete sind die Sicherheitsüberwachung, die Satellitenbildanalyse und die Robotik.
Die vielversprechenden Ergebnisse von AdaptCLIP legen nahe, dass dieser Ansatz das Potenzial hat, die visuelle Anomalieerkennung grundlegend zu verändern. Zukünftige Forschung könnte sich auf die weitere Optimierung der Adapterarchitektur und die Erweiterung des Anwendungsbereichs auf weitere Domänen konzentrieren. Die Verfügbarkeit des Codes und des Modells wird die Forschung und Entwicklung in diesem Bereich weiter beschleunigen und zu neuen Innovationen führen.
Bibliographie: Huang, S., et al. "Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images." *Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition*, 2024. Gao, B.-B., et al. "AdaptCLIP: Adapting CLIP for Universal Visual Anomaly Detection." *arXiv preprint arXiv:2505.09926*, 2025. Cao, Y., et al. "AdaCLIP: Adapting CLIP with Hybrid Learnable Prompts for Zero-Shot Anomaly Detection." *arXiv preprint arXiv:2403.12570*, 2024. "ECCV 2024 Papers." *European Conference on Computer Vision*, 2024. "Hugging Face Papers." *Hugging Face*. "OpenReview." *openreview.net*. "PubMed Central." *National Center for Biotechnology Information*.