Die rasante Entwicklung der Künstlichen Intelligenz (KI) hat zur Entstehung immer raffinierterer Deepfake-Technologien geführt. Diese Technologien, insbesondere in Form von hochrealistischen synthetischen Audios, stellen eine zunehmende Bedrohung für das Vertrauen im Internet dar, da sie immer schwerer von authentischen Inhalten zu unterscheiden sind. Um dieser Herausforderung zu begegnen und Kunden die fortschrittlichsten Fähigkeiten zur Deepfake-Erkennung zu bieten, hat Resemble AI das neueste Modell DETECT-2B vorgestellt.
Im Kern ist DETECT-2B ein Ensemble aus mehreren Teilmodellen, die verschiedene Schlüsselkomponenten der Architektur nutzen:
- Vortrainierte selbstüberwachte Audiorepräsentationsmodelle
- Effiziente Feinabstimmungstechniken, um die vortrainierten Modelle für die Deepfake-Erkennung anzupassen
Die Teilarchitekturen bestehen aus einem eingefrorenen Audiorepräsentationsmodell mit einem Adaptionsmodul, das in seine Schlüsselschichten eingefügt wird. Dadurch kann der Adapter lernen, die Aufmerksamkeit des Modells auf die subtilen Artefakte zu lenken, die echtes Audio von gefälschtem unterscheiden, ohne das gesamte Modell von Grund auf neu zu trainieren.
Zusätzliche Teilarchitekturen bauen auf diesem Fundament auf, indem sie leistungsstarke Sequenzmodellierungstechniken als abschließende Klassifizierungsschicht einbeziehen. Durch die Kombination von selbstüberwachtem Audiorepräsentationslernen, effizienter Feinabstimmung und fortschrittlicher Sequenzmodellierung können diese Teilarchitekturen sowohl niederfrequente akustische Merkmale als auch höherfrequente sequentielle Muster erfassen, die für Audio-Deepfakes charakteristisch sind.
Diese Teilmodelle werden auf einem groß angelegten Datensatz für eine ausreichende Anzahl von Iterationen mit einem optimierten Lernratenplan trainiert. Sobald die einzelnen Teilmodelle konvergiert sind, werden sie mit einem ausgeklügelten Fusionsansatz zu einem einzigen Ensemblemodell kombiniert. Beim Inferenzzeitpunkt sagt dieses Ensemble einen "Fakeness"-Score für kurze Zeitabschnitte über die Dauer eines Eingabe-Audioclips voraus. Diese Scores werden dann aggregiert und mit einem sorgfältig abgestimmten Schwellenwert verglichen, um die endgültige Klassifizierung "echt" oder "gefälscht" für den gesamten Audioclip zu treffen.
Mamba-SSM (State Space Models) ist eine aufstrebende Architektur, die darauf abzielt, die Sequenzmodellierungsfähigkeiten von Deepfake-Erkennungsmodellen zu verbessern. State Space Models sollen Sequenzmodellierungsaufgaben wie Transformatoren ausführen, jedoch mit größerer Effizienz. Mamba-SSM zeichnet sich durch seinen einzigartigen Ansatz zur Modellierung zeitlicher Sequenzen und zur Erfassung komplexer Muster in Audiodaten aus.
- Verbesserte zeitliche Dynamik
- Adaptive Zustandsübergänge
- Robustheit gegenüber Variabilität
Die Einführung von Mamba-SSM stellt einen bedeutenden Fortschritt im Bereich der Deepfake-Erkennung dar:
Deepfake-Audio enthält oft Artefakte, die für traditionelle Klassifikatoren zu subtil sind, um sie zuverlässig zu erkennen. Diese Artefakte können sich als leichte Variationen in Tonhöhe, Timing oder spektralen Eigenschaften manifestieren, die nicht leicht erkennbar sind. Mamba-SSM's stochastische Zustandsübergänge ermöglichen es, diese subtilen Unterschiede genauer zu erfassen.
Die Fähigkeit von DETECT-2B, in verschiedenen Sprachen gut abzuschneiden, ist weitgehend auf umfangreiche mehrsprachige Trainingsdaten und die Verwendung vortrainierter Modelle wie Wav2Vec2 zurückzuführen. Diese Komponenten ermöglichen es dem System, sprachunabhängige Merkmale zu lernen, die auf Audio-Manipulation hinweisen.
Mamba-SSM ist so konzipiert, dass es nahtlos mit selbstüberwachten vortrainierten Modellen wie Wav2Vec2 integriert werden kann. Selbstüberwachungsmodelle haben bereits außergewöhnliche Leistungen in verschiedenen Audiotasks gezeigt, indem sie reichhaltige Repräsentationen aus großen Mengen unbeschrifteter Daten lernen. In Kombination mit Mamba-SSM erhalten diese Modelle eine zusätzliche Verfeinerungsebene, die sich präziser auf die Artefakte konzentriert, die auf Deepfake-Audio hinweisen.
Trotz seiner fortschrittlichen Fähigkeiten ist Mamba-SSM darauf ausgelegt, recheneffizient zu sein. Sein probabilistisches Framework kann auf große Mengen von Audiodaten skalieren und dabei eine höhere Geschwindigkeit im Vergleich zu alternativen Ansätzen bieten. Diese Effizienz ist entscheidend für den Einsatz von Deepfake-Erkennungssystemen in Echtzeitanwendungen, bei denen schnelle Entscheidungen von entscheidender Bedeutung sind.
Ein Modell ist nur so gut wie die Daten, auf denen es trainiert und bewertet wird. Für DETECT-2B haben wir einen umfangreichen und vielfältigen Datensatz kuratiert, der eine beträchtliche Menge an echten und gefälschten Audiodaten umfasst, die mit verschiedenen Methoden erzeugt wurden. Der Datensatz deckt eine breite Palette von Sprechern über mehrere Sprachen hinweg ab, um Robustheit und Generalisierung zu gewährleisten.
Wir stellen sicher, dass eine strikte Trennung zwischen den in den Trainings- und Bewertungssätzen verwendeten Sprechern eingehalten wird, um sicherzustellen, dass das Modell tatsächlich die Artefakte von gefälschtem Audio erkennt und nicht auf spezifische Stimmen überfittet.
Zur Bewertung des Modells haben wir einen sehr großen Testsatz zusammengestellt, der bisher nicht gesehene Sprecher, Deepfake-Generierungsmethoden und Sprachen umfasst. Dies schließt Daten ein, die aus verschiedenen akademischen Datensätzen sowie aus internen Daten, die aus vielfältigen realen Quellen stammen, gewonnen wurden. Durch das Testen auf einem so umfassenden Datensatz können wir sicher sein, dass die Leistungsmetriken von DETECT-2B seine Fähigkeit widerspiegeln, auf die Art von Deepfake-Audio zu generalisieren, die es in freier Wildbahn antreffen würde.
Wie schneidet DETECT-2B tatsächlich auf diesem herausfordernden Testsatz ab? Es erreicht eine beeindruckende Equal Error Rate (EER), die den Punkt darstellt, an dem die Falsch-Positiv-Rate (echte Audioclips, die fälschlicherweise als gefälscht klassifiziert werden) und die Falsch-Negativ-Rate (gefälschte Audioclips, die fälschlicherweise als echt klassifiziert werden) gleich sind. DETECT-2B kann die überwiegende Mehrheit der Deepfake-Audioclips korrekt identifizieren, während es eine sehr niedrige Falsch-Positiv-Rate beibehält. Dies ist eine erhebliche Verbesserung gegenüber unserem ursprünglichen Erkennungsmodell.
Betrachtet man die aggregierten Ergebnisse, zeigt DETECT-2B durchweg hohe Genauigkeit über verschiedene Sprachen hinweg, einschließlich solcher, die während des Trainings nicht gesehen wurden. Dies deutet darauf hin, dass das Modell lernt, sprachunabhängige Hinweise auf Audio-Manipulation aufzunehmen.
Ebenso schneidet DETECT-2B bei der Aufschlüsselung nach Deepfake-Generierungsmethoden durchweg gut ab, einschließlich der neuesten synthetischen Audioansätze. Beeindruckenderweise erzielt es auch bei Methoden, die im Trainingsdatensatz nicht vertreten waren, starke Leistungen, was darauf hindeutet, dass das Modell grundlegende Merkmale von synthetischem Audio lernt und nicht nur bekannte gefälschte Audiomuster auswendig lernt.
Für Kunden, die DETECT-2B in ihre Audioverarbeitungssysteme integrieren möchten, bietet Resemble AI eine API an, die eine nahtlose Integration ermöglicht. Dies ist besonders wichtig in Anwendungsfällen wie Wahlen und Regierungsmitteilungen, wo die Integrität von Audioinhalten entscheidend ist.
Zusammenfassend lässt sich sagen, dass DETECT-2B einen bedeutenden Fortschritt in der Deepfake-Erkennung darstellt. Durch die Kombination fortschrittlicher Modellarchitekturen, umfangreicher Trainingsdaten und effizienter Feinabstimmungstechniken bietet es eine robuste und genaue Lösung zur Erkennung synthetischer Audios, die in der realen Welt erhebliche Auswirkungen haben könnte.
- https://www.resemble.ai/detect2b/
- https://venturebeat.com/ai/resemble-ais-next-generation-ai-audio-detection-model-detect-2b-is-94-accurate/
- https://www.resemble.ai/deepfake-detection-dashboard/
- https://www.youtube.com/watch?v=SqqIe83yS-Y
- https://www.globalvillagespace.com/tech/resemble-ai-releases-detect-2b-a-highly-accurate-deepfake-detection-model/
- https://www.linkedin.com/posts/resembleai_deepfake-detection-emerging-machine-learning-activity-7125166427749158912-NAdj
- https://www.linkedin.com/posts/resembleai_deepfakes-aivoice-innovation-activity-7137790575864410112-vt_G
- https://www.springerprofessional.de/en/multi-modal-generative-deepfake-detection-via-visual-language-pr/27256618