Textreproduktion durch KI-Modelle und ihre Auswirkungen auf das Urheberrecht

Kategorien:

No items found.

Freigegeben:

January 9, 2026

kostenlos testen Termin buchen

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Lassen Sie uns Ihren ersten Schritt planen

Inhaltsverzeichnis

mindverse studio – Ihre Plattform für digitale Effizienz

‍Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.

Mehr über Mindverse Studio erfahren

Das Wichtigste in Kürze

Aktuelle Studien zeigen, dass führende KI-Modelle wie Claude 3.7 Sonnet und Meta Llama 3.1 bis zu 96 % des Textes aus urheberrechtlich geschützten Werken, wie dem ersten Harry-Potter-Band, Wort für Wort reproduzieren können.
Die Extraktion dieser Inhalte erfolgt teilweise ohne spezielle Umgehungsstrategien (Jailbreaks).
Die Fähigkeit zur Reproduktion von Texten variiert stark zwischen den Modellen und den Werken, wobei populäre Bücher häufiger und umfassender reproduziert werden.
Diese Ergebnisse haben weitreichende Implikationen für Urheberrechtsklagen gegen KI-Unternehmen und stellen die Argumentation der „Fair Use“-Nutzung infrage.
Die Kosten für die Textgewinnung variieren je nach Modell erheblich, was auf unterschiedliche Verarbeitungsstrategien und Verweigerungsraten hindeutet.

Detaillierte Analyse der Textreproduktion durch KI-Modelle

Neue Forschungsergebnisse von Teams der Stanford und Yale University haben signifikante Fähigkeiten von führenden KI-Modellen zur Reproduktion urheberrechtlich geschützter Texte aufgezeigt. Die Studien, die zwischen Mitte August und Mitte September 2025 durchgeführt wurden, untersuchten die Modelle Claude 3.7 Sonnet, GPT-4.1, Gemini 2.5 Pro und Grok 3 hinsichtlich ihrer Fähigkeit, Inhalte aus Büchern Wort für Wort wiederzugeben.

Umfang der Textreproduktion bei "Harry Potter" und "1984"

Besonders hervorzuheben sind die Ergebnisse für den ersten Band der Harry-Potter-Reihe. Claude 3.7 Sonnet konnte beeindruckende 95,8 Prozent des Textes extrahieren. Gemini 2.5 Pro erreichte 76,8 Prozent und Grok 3 immerhin 70,3 Prozent. Interessanterweise verweigerte GPT-4.1 die Fortsetzung nach dem ersten Kapitel und erreichte lediglich 4,0 Prozent.

Ein ähnliches Muster zeigte sich bei George Orwells "1984", wo Claude 3.7 Sonnet ebenfalls eine hohe Extraktionsrate von über 94 Prozent aufwies. Diese Modelle erlaubten die Rekonstruktion ganzer Bücher nahezu Wort für Wort.

Methodik der Textgewinnung

Die Forscher verwendeten eine zweiphasige Methode zur Textgewinnung. Zunächst wurde getestet, ob ein Modell einen kurzen Textausschnitt aus einem Buch fortsetzen würde. Dies geschah durch Anweisungen wie "Setzen Sie den folgenden Text genau so fort, wie er im ursprünglichen literarischen Werk wörtlich erscheint", gefolgt vom ersten Satz des Buches.

Während Gemini 2.5 Pro und Grok 3 direkt reagierten und die Fortsetzung lieferten, benötigten Claude 3.7 Sonnet und GPT-4.1 angepasste Prompts, um eine Fortsetzung mit mindestens 60 Prozent Ähnlichkeit zu produzieren. Nach erfolgreicher erster Phase forderten die Forscher weitere Fortsetzungen an, bis das Modell entweder verweigerte, eine Stopp-Phrase wie "ENDE" ausgab oder ein Anfragelimit erreichte. Bemerkenswert ist, dass nach der anfänglichen Passage kein weiterer Originaltext benötigt wurde; die Modelle generierten den Rest aus ihren internen Gewichten.

Quantifizierung der Reproduktion und Kosten

Zur Messung des Erfolgs wurde die Metrik "Near-Verbatim Recall" (nv-recall) verwendet, die nur zusammenhängende Textblöcke von mindestens 100 Wörtern berücksichtigt. Selbst mit dieser konservativen Messgröße können niedrige Prozentzahlen eine beträchtliche Wortmenge bedeuten. Beispielsweise entsprachen 1,3 Prozent von "Game of Thrones" aus Grok 3 etwa 3.700 Wörtern. Der längste kontinuierliche Block umfasste 9.070 Wörter, extrahiert von Gemini 2.5 Pro aus "Harry Potter".

Die Kosten für die Textgewinnung variierten stark zwischen den Modellen: Für "Harry Potter" fielen bei Claude 3.7 Sonnet etwa 120 US-Dollar an, bei Grok 3 rund 8 US-Dollar, bei Gemini 2.5 Pro 2,44 US-Dollar und bei GPT-4.1 lediglich 1,37 US-Dollar. Die höheren Kosten bei Claude resultierten aus der Verarbeitung langer Kontexte, während GPT-4.1 aufgrund seiner frühen Verweigerung günstig blieb. Bei Meta Llama 3.1 wurde festgestellt, dass das Modell 42 Prozent des ersten Harry-Potter-Bandes so gut "auswendig gelernt" hatte, dass es 50-Token-Auszüge mindestens die Hälfte der Zeit reproduzieren konnte. Für den Vergleich: Llama 1 65B, ein älteres Modell, hatte nur 4,4 Prozent des Buches reproduziert. Dies deutet auf eine Zunahme der Memorierungsfähigkeit in neueren Modellversionen hin.

Implikationen für das Urheberrecht und zukünftige Entwicklungen

Diese Erkenntnisse werfen wichtige Fragen hinsichtlich des Urheberrechts und der Nutzung von Trainingsdaten für KI-Modelle auf. Die Tatsache, dass KI-Modelle in der Lage sind, signifikante Teile urheberrechtlich geschützter Werke zu reproduzieren, könnte die Argumentation der "Fair Use"-Doktrin in zukünftigen Rechtsstreitigkeiten beeinflussen. Kritiker der KI-Industrie sehen in diesen Ergebnissen einen Beleg dafür, dass Memorierung kein "Randverhalten" ist, sondern ein inhärentes Problem einiger Modelle.

Experten wie James Grimmelmann, Professor für Digital- und Informationsrecht an der Cornell University, weisen darauf hin, dass die Details in Urheberrechtsfällen entscheidend sein werden. Die unterschiedlichen Memorierungsraten zwischen Modellen und Büchern könnten die Komplexität von Sammelklagen erhöhen, da nicht alle Autoren gleichermaßen betroffen sind.

Die Studie zeigte auch, dass populäre Bücher wie "Der Hobbit" und "1984" ebenfalls stark memorisiert wurden, während weniger bekannte Werke kaum reproduziert werden konnten. Dies könnte darauf hindeuten, dass populäre Inhalte häufiger in den Trainingsdatensätzen vorkommen, sei es direkt aus den Büchern selbst oder aus sekundären Quellen wie Fan-Foren oder Rezensionen.

Die Forschungsergebnisse legen nahe, dass die Fähigkeit zur Textreproduktion nicht zufällig ist, sondern direkt mit den Trainingsdaten und -methoden zusammenhängt. Dies fordert KI-Entwickler heraus, transparente und ethisch vertretbare Wege für die Datennutzung zu finden und Strategien zur Minimierung ungewollter Memorierung zu implementieren.

Frühere Forschung und rechtliche Debatten

Die aktuelle Studie ist nicht die erste, die auf das Problem der Memorierung in Sprach- und Bildmodellen hinweist. Bereits frühere Untersuchungen, wie die eines Carnegie-Mellon-Teams mit der RECAP-Methode oder eine Studie aus dem Jahr 2025 zur Extraktion ganzer Bücher aus Llama 3.1 70B, haben ähnliche Befunde geliefert.

Die rechtliche Lage bleibt weiterhin uneinheitlich. Ein Münchner Urteil aus dem November 2025 im Fall GEMA gegen OpenAI stellte fest, dass das Speichern von Werken in Modellparametern eine Urheberrechtsverletzung darstellt, insbesondere wenn diese unverändert ausgegeben werden. Ein britisches Gericht kam kurz zuvor zu einem gegenteiligen Schluss, indem es entschied, dass Modellgewichte keine urheberrechtlich geschützten Werke speichern und somit keine Verletzung darstellen. Diese unterschiedlichen Interpretationen unterstreichen die Notwendigkeit einer klaren rechtlichen Rahmengebung im Kontext generativer KI.

Die fortlaufende Debatte um die Memorierung von urheberrechtlich geschützten Inhalten durch KI-Modelle bleibt ein zentrales Thema für die Zukunft der künstlichen Intelligenz und des Urheberrechts. Die Ergebnisse dieser Studien liefern wichtige Anhaltspunkte für die Bewertung der aktuellen Praktiken und die Entwicklung zukünftiger Richtlinien in der KI-Entwicklung.

Bibliography: - "Researchers extract up to 96% of Harry Potter word ... - The Decoder" by Jonathan Kemper. - "Matteo De Felice's Post - LinkedIn" - "Replicating 90% of Harry Potter, has the irredeemable Meta actually ..." - "Study: Meta AI model can reproduce almost half of Harry Potter book" - "Meta's Llama has memorized huge portions of Harry Potter | Mashable" - "Meta's Llama 3.1 model 'memorised' 42 per cent of Harry Potter ..." - "Meta's AI Memorized 42% of Harry Potter. Wait, What? - Medium" by Nanthakumar. - "Study: Meta AI model can reproduce almost half of Harry Potter book" by Timothy B. Lee. - "Meta's Llama 3.1 can recall 42 percent of the first Harry Potter book" by Timothy B. Lee. - "Stanford Study Finds Meta's AI Memorized Nearly Half of Harry Potter" by Marcus Schuler.