Die rasante Entwicklung Künstlicher Intelligenz (KI) hat zu beeindruckenden Fortschritten im Bereich der generativen Modelle geführt. Insbesondere im Bereich der Bild- und Videoerstellung (AIGC - Artificial Intelligence Generated Content) entstehen täuschend echte synthetische Inhalte. Diese Fortschritte eröffnen zwar enorme Möglichkeiten, bergen aber gleichzeitig Risiken für die Authentizität und Integrität digitaler Medien. Bisherige Methoden zur Erkennung von KI-generierten Inhalten stoßen oft an ihre Grenzen, da sie häufig als Black-Box-Systeme funktionieren und nur binäre Klassifizierungen (echt/falsch) liefern. Zudem fehlt es an Ansätzen, die sowohl Bilder als auch Videos in einem einheitlichen Rahmenwerk analysieren können.
Um diesen Herausforderungen zu begegnen, wurde IVY-FAKE entwickelt – ein neuartiges, einheitliches und umfangreiches Dataset, das speziell für die erklärbare multimodale AIGC-Erkennung konzipiert ist. Im Gegensatz zu früheren Benchmarks, die unter einer fragmentierten Modalitätsabdeckung und spärlichen Annotationen leiden, enthält IVY-FAKE über 150.000 umfassend annotierte Trainingsdaten (Bilder und Videos) und 18.700 Evaluationsbeispiele. Jedes Beispiel ist mit detaillierten natürlichsprachlichen Begründungen versehen, die über einfache binäre Labels hinausgehen.
Auf Basis von IVY-FAKE wurde der Ivy Explainable Detector (IVY-XDETECTOR) entwickelt, eine einheitliche Architektur zur AIGC-Erkennung, die sowohl für Bild- als auch für Videoinhalte eine erklärbare Detektion durchführt. Im Gegensatz zu Modellen, die lediglich Koordinaten oder Heatmaps ausgeben, liefert IVY-XDETECTOR menschenlesbare Beschreibungen der visuellen Artefakte, die auf eine KI-Generierung hindeuten. Dies erhöht die Transparenz und das Vertrauen in die Ergebnisse des Detektors.
Der IVY-XDETECTOR verwendet ein dreistufiges Trainingsprogramm:
- Allgemeines Videoverständnis - Feinabstimmung der AIGC-Erkennung für die binäre Klassifizierung - Gemeinsame Optimierung für Erkennung und ErklärbarkeitDiese Architektur ermöglicht es dem Modell, sowohl die generelle Struktur von Bildern und Videos zu verstehen als auch spezifische Merkmale von KI-generierten Inhalten zu identifizieren und zu erklären.
IVY-FAKE und IVY-XDETECTOR stellen einen bedeutenden Schritt in Richtung einer transparenteren und vertrauenswürdigeren Analyse von KI-Inhalten dar. Durch die Bereitstellung eines einheitlichen Frameworks und detaillierter Erklärungen wird die Grundlage für zukünftige Forschung im Bereich der multimodalen AIGC-Erkennung geschaffen. Die Kombination aus einem umfangreichen Datensatz und einem erklärbaren Detektor ermöglicht es, die Integrität digitaler Medien besser zu schützen und die Verbreitung von manipulierten Inhalten einzudämmen.
Die öffentlich zugänglichen Daten von IVY-FAKE bieten Forschern und Entwicklern die Möglichkeit, eigene Modelle zu trainieren und weiterzuentwickeln und so zur stetigen Verbesserung der AIGC-Erkennung beizutragen. Die Erklärbarkeit des IVY-XDETECTOR trägt dazu bei, das Verständnis für die Funktionsweise von KI-Detektoren zu verbessern und das Vertrauen in deren Ergebnisse zu stärken.
Bibliographie: https://arxiv.org/abs/2506.00979 https://arxiv.org/html/2506.00979v1 https://www.alphaxiv.org/abs/2506.00979 https://ollama.hf-mirror.com/papers?q=unified%20classifier https://github.com/Ekko-zn/AIGCDetectBenchmark https://huggingface.co/papers/2503.14905 https://github.com/graydove/Awesome-AIGC-Image-Detection