KI-Training: Neue Tools zur Erkennung von Urheberrechtsverletzungen
Einführung
Seit dem Aufstieg der generativen Künstlichen Intelligenz (KI) sind Urheber von Inhalten zunehmend besorgt darüber, dass ihre Werke ohne Zustimmung in KI-Modelle integriert werden. Trotz dieser Bedenken war es bisher schwierig, nachzuweisen, ob ein bestimmter Text in einem Trainingsdatensatz verwendet wurde. Ein innovatives Tool, entwickelt vom Imperial College London, könnte nun Abhilfe schaffen.
Was sind Copyright-Traps?
Sogenannte Copyright-Traps sind versteckte Textstücke, die es Autoren und Verlegern ermöglichen, ihre Werke subtil zu kennzeichnen. Diese Kennzeichnungen helfen später dabei, festzustellen, ob die Werke in KI-Modellen verwendet wurden. Die Idee ähnelt der Einfügung falscher Orte in Karten oder falscher Wörter in Wörterbücher, eine Strategie, die Urheberrechtsinhaber schon lange nutzen.
Technologie und Methodik
Das Team am Imperial College London hat einen Wortgenerator verwendet, um Tausende synthetischer Sätze zu erzeugen. Diese Sätze, die auf den ersten Blick unsinnig erscheinen, werden mehrfach in einen Text eingefügt. Beispiele solcher Sätze könnten wie folgt aussehen: „When in comes times of turmoil … whats on sale and more important when, is best, this list tells your who is opening on Thrs. at night with their regular sale times and other opening time from your neighbors. You still.“
Diese Sätze können als weißer Text auf weißem Hintergrund oder im Quellcode eines Artikels eingefügt werden, sodass menschliche Leser sie nicht bemerken. Das Ziel ist, dass diese Sätze im Text 100 bis 1.000 Mal wiederholt werden.
Erkennung und Analyse
Um die Textfallen zu erkennen, fütterten die Forscher ein großes Sprachmodell mit den generierten Sätzen und prüften, ob es sie als „neu“ markierte. Wenn das Modell einen der Sätze in seinen Trainingsdaten gesehen hatte, zeigte es einen niedrigeren Wert der „Überraschung“ (Perplexity) an. War das Modell von einem Satz „überrascht“, bedeutete das, dass es diesen zum ersten Mal sah und der Text nicht in den Trainingsdaten enthalten war.
Herausforderungen und Grenzen
Diese Methode funktioniert gut bei großen, hochmodernen Modellen, die sich viele ihrer Trainingsdaten merken. Kleinere Modelle, die auf mobilen Geräten ausgeführt werden können, speichern jedoch weniger Daten und sind daher weniger anfällig für diese Erkennungstechniken. Diese Tatsache stellt eine Herausforderung dar, da es schwieriger wird, festzustellen, ob sie mit einem bestimmten urheberrechtlich geschützten Dokument trainiert wurden.
Die Forscher haben ihre Textfallen auch in den Trainingsdatensatz von CroissantLLM, einem neuen zweisprachigen französisch-englischen Sprachmodell, eingefügt. Die Ergebnisse zeigten, dass es möglich ist, die Wirksamkeit solcher Erkennungen selbst bei kleineren Modellen zu erhöhen.
Praktische Anwendung und Perspektiven
Die 1.000-malige Wiederholung eines Satzes mit 75 Wörtern stellt jedoch eine große Veränderung des Originaltextes dar. Menschen, die KI-Modelle trainieren, könnten eine Copyright-Trap erkennen und Inhalte überspringen oder löschen. Dies macht die Copyright-Fallen derzeit unpraktisch, wie Sameer Singh, Professor für Informatik an der University of California, Irvine, erklärt. „Viele Unternehmen führen eine Deduplizierung durch, d. h. sie bereinigen die Daten, und ein Großteil dieser Art von Daten wird wahrscheinlich einfach weggeworfen“, sagt Singh.
Verbesserungsmöglichkeiten
Eine Möglichkeit zur Verbesserung der Copyright-Traps bestünde darin, andere Kennzeichnungsmethoden urheberrechtlich geschützter Inhalte zu finden. De Montjoye, der die Arbeit am Imperial College London leitete, räumt ein, dass die Textfallen nicht narrensicher sind. Ein motivierter Verteidiger könnte sie entfernen, aber je mehr Textfallen gestellt werden, desto schwieriger wird es, sie alle zu entfernen, ohne erhebliche technische Mittel einzusetzen.
Fazit
Copyright-Traps bieten eine innovative Möglichkeit, Urheberrechtsverletzungen im KI-Training zu erkennen, stehen jedoch vor praktischen Herausforderungen. Die Forschung in diesem Bereich entwickelt sich weiter, und es bleibt abzuwarten, wie diese Tools in der Praxis angewendet werden können, um ein Gleichgewicht zwischen KI-Entwicklern und Urhebern zu schaffen.
Quellen
- https://www.finanznachrichten.de/nachrichten-2024-07/62845194-ki-training-mit-diesem-tool-koennen-urheber-geklaute-inhalte-ermitteln-397.htm
- https://www.avenit.de/de/blog/ki-tools-im-marketing-und-das-urheberrecht
- https://www.derstandard.at/story/3000000204643/so-laesst-sich-das-urheberrechtsproblem-der-kuenstlichen-intelligenz-loesen
- https://www.rosepartner.de/blog/urheberrechtsverletzung-durch-ki-training.html
- https://www.exali.de/Info-Base/chatgpt-urheberrecht
- https://www.techopedia.com/de/diebstahl-geistigen-eigentums-und-ki
- https://freelens.com/kuenstliche-intelligenz/ueber-den-umgang-mit-ki-bildgeneratoren-leitfaden-fuer-fotografinnen/
- https://www.ige.ch/de/blog/blog-artikel/kuenstliche-intelligenz-koennen-ki-tools-urheberrecht-verletzen