KI Training und Urheberrecht Neue Methoden zur Aufdeckung von Inhaltsdiebstahl

Kategorien:

No items found.

Freigegeben:

July 29, 2024

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

KI-Training: Neue Tools zur Erkennung von Urheberrechtsverletzungen

Einführung

Seit dem Aufstieg der generativen Künstlichen Intelligenz (KI) sind Urheber von Inhalten zunehmend besorgt darüber, dass ihre Werke ohne Zustimmung in KI-Modelle integriert werden. Trotz dieser Bedenken war es bisher schwierig, nachzuweisen, ob ein bestimmter Text in einem Trainingsdatensatz verwendet wurde. Ein innovatives Tool, entwickelt vom Imperial College London, könnte nun Abhilfe schaffen.

Was sind Copyright-Traps?

Sogenannte Copyright-Traps sind versteckte Textstücke, die es Autoren und Verlegern ermöglichen, ihre Werke subtil zu kennzeichnen. Diese Kennzeichnungen helfen später dabei, festzustellen, ob die Werke in KI-Modellen verwendet wurden. Die Idee ähnelt der Einfügung falscher Orte in Karten oder falscher Wörter in Wörterbücher, eine Strategie, die Urheberrechtsinhaber schon lange nutzen.

Technologie und Methodik

Das Team am Imperial College London hat einen Wortgenerator verwendet, um Tausende synthetischer Sätze zu erzeugen. Diese Sätze, die auf den ersten Blick unsinnig erscheinen, werden mehrfach in einen Text eingefügt. Beispiele solcher Sätze könnten wie folgt aussehen: „When in comes times of turmoil … whats on sale and more important when, is best, this list tells your who is opening on Thrs. at night with their regular sale times and other opening time from your neighbors. You still.“ Diese Sätze können als weißer Text auf weißem Hintergrund oder im Quellcode eines Artikels eingefügt werden, sodass menschliche Leser sie nicht bemerken. Das Ziel ist, dass diese Sätze im Text 100 bis 1.000 Mal wiederholt werden.

Erkennung und Analyse

Um die Textfallen zu erkennen, fütterten die Forscher ein großes Sprachmodell mit den generierten Sätzen und prüften, ob es sie als „neu“ markierte. Wenn das Modell einen der Sätze in seinen Trainingsdaten gesehen hatte, zeigte es einen niedrigeren Wert der „Überraschung“ (Perplexity) an. War das Modell von einem Satz „überrascht“, bedeutete das, dass es diesen zum ersten Mal sah und der Text nicht in den Trainingsdaten enthalten war.

Herausforderungen und Grenzen

Diese Methode funktioniert gut bei großen, hochmodernen Modellen, die sich viele ihrer Trainingsdaten merken. Kleinere Modelle, die auf mobilen Geräten ausgeführt werden können, speichern jedoch weniger Daten und sind daher weniger anfällig für diese Erkennungstechniken. Diese Tatsache stellt eine Herausforderung dar, da es schwieriger wird, festzustellen, ob sie mit einem bestimmten urheberrechtlich geschützten Dokument trainiert wurden. Die Forscher haben ihre Textfallen auch in den Trainingsdatensatz von CroissantLLM, einem neuen zweisprachigen französisch-englischen Sprachmodell, eingefügt. Die Ergebnisse zeigten, dass es möglich ist, die Wirksamkeit solcher Erkennungen selbst bei kleineren Modellen zu erhöhen.

Praktische Anwendung und Perspektiven

Die 1.000-malige Wiederholung eines Satzes mit 75 Wörtern stellt jedoch eine große Veränderung des Originaltextes dar. Menschen, die KI-Modelle trainieren, könnten eine Copyright-Trap erkennen und Inhalte überspringen oder löschen. Dies macht die Copyright-Fallen derzeit unpraktisch, wie Sameer Singh, Professor für Informatik an der University of California, Irvine, erklärt. „Viele Unternehmen führen eine Deduplizierung durch, d. h. sie bereinigen die Daten, und ein Großteil dieser Art von Daten wird wahrscheinlich einfach weggeworfen“, sagt Singh.

Verbesserungsmöglichkeiten

Eine Möglichkeit zur Verbesserung der Copyright-Traps bestünde darin, andere Kennzeichnungsmethoden urheberrechtlich geschützter Inhalte zu finden. De Montjoye, der die Arbeit am Imperial College London leitete, räumt ein, dass die Textfallen nicht narrensicher sind. Ein motivierter Verteidiger könnte sie entfernen, aber je mehr Textfallen gestellt werden, desto schwieriger wird es, sie alle zu entfernen, ohne erhebliche technische Mittel einzusetzen.

Fazit

Copyright-Traps bieten eine innovative Möglichkeit, Urheberrechtsverletzungen im KI-Training zu erkennen, stehen jedoch vor praktischen Herausforderungen. Die Forschung in diesem Bereich entwickelt sich weiter, und es bleibt abzuwarten, wie diese Tools in der Praxis angewendet werden können, um ein Gleichgewicht zwischen KI-Entwicklern und Urhebern zu schaffen.

Quellen

- https://www.finanznachrichten.de/nachrichten-2024-07/62845194-ki-training-mit-diesem-tool-koennen-urheber-geklaute-inhalte-ermitteln-397.htm - https://www.avenit.de/de/blog/ki-tools-im-marketing-und-das-urheberrecht - https://www.derstandard.at/story/3000000204643/so-laesst-sich-das-urheberrechtsproblem-der-kuenstlichen-intelligenz-loesen - https://www.rosepartner.de/blog/urheberrechtsverletzung-durch-ki-training.html - https://www.exali.de/Info-Base/chatgpt-urheberrecht - https://www.techopedia.com/de/diebstahl-geistigen-eigentums-und-ki - https://freelens.com/kuenstliche-intelligenz/ueber-den-umgang-mit-ki-bildgeneratoren-leitfaden-fuer-fotografinnen/ - https://www.ige.ch/de/blog/blog-artikel/kuenstliche-intelligenz-koennen-ki-tools-urheberrecht-verletzen