KI für Ihr Unternehmen – Jetzt Demo buchen

Ein neuer Ansatz zur Analyse der Reproduktionsfähigkeit urheberrechtlich geschützter Texte durch Sprachmodelle

Kategorien:
No items found.
Freigegeben:
November 13, 2025

KI sauber im Unternehmen integrieren: Der 5-Schritte-Plan

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg

1
🎯

Strategie & Zieldefinition

Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.

✓ Messbare KPIs definiert

2
🛡️

Daten & DSGVO-Compliance

Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.

✓ 100% DSGVO-konform

3
⚙️

Technologie- & Tool-Auswahl

Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.

✓ Beste Lösung für Ihren Fall

4
🚀

Pilotprojekt & Integration

Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.

✓ Ergebnisse in 4-6 Wochen

5
👥

Skalierung & Team-Schulung

Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.

✓ Ihr Team wird KI-fit

Inhaltsverzeichnis

    mindverse studio – Ihre Plattform für digitale Effizienz

    Optimieren Sie Prozesse, automatisieren Sie Workflows und fördern Sie Zusammenarbeit – alles an einem Ort.
    Mehr über Mindverse Studio erfahren

    Das Wichtigste in Kürze

    • Ein neues Forschungstool namens RECAP wurde entwickelt, um die Fähigkeit von großen Sprachmodellen (LLMs) zu untersuchen, urheberrechtlich geschützte Texte aus ihren Trainingsdaten zu reproduzieren.
    • RECAP nutzt eine innovative Feedback-Schleife mit mehreren Sprachmodellen und einem "Jailbreaking"-Modul, um auch bei Modellen, die direkte Anfragen nach urheberrechtlich geschützten Inhalten ablehnen, genaue Reproduktionen zu ermöglichen.
    • Die Ergebnisse zeigen, dass LLMs, wie beispielsweise Llama 3.1 70B, signifikante Teile bekannter urheberrechtlich geschützter Werke, wie "Harry Potter", nahezu wortgetreu reproduzieren können.
    • Diese Erkenntnisse könnten weitreichende Auswirkungen auf die laufenden Urheberrechtsdebatten und -klagen im Bereich der KI haben und die Transparenz bezüglich der Trainingsdaten von LLMs erhöhen.

    Neue Einblicke in die Textreproduktion von Sprachmodellen: Das RECAP-Tool

    Die Fähigkeit von großen Sprachmodellen (LLMs), Texte zu generieren, hat in den letzten Jahren enorme Fortschritte gemacht. Doch mit dieser Entwicklung wachsen auch die Fragen bezüglich der Herkunft und der Nutzung der Trainingsdaten, insbesondere im Hinblick auf urheberrechtlich geschütztes Material. Eine aktuelle Entwicklung in diesem Bereich ist die Vorstellung des RECAP-Tools, einer Methode, die darauf abzielt, genau zu quantifizieren, wie viel urheberrechtlich geschützten Text LLMs aus ihren Trainingsdaten reproduzieren können.

    Die Funktionsweise von RECAP

    Forscher der Carnegie Mellon University und des Instituto Superior Técnico haben RECAP entwickelt, um die Memorierungsfähigkeiten von KI-Modellen detailliert zu untersuchen. Der Kern von RECAP ist eine mehrstufige Feedback-Schleife, die mehrere Sprachmodelle involviert. Ziel ist es, Inhalte aus den Trainingsdaten eines LLM zu rekonstruieren, selbst wenn die Trainingsdaten selbst geheim gehalten werden.

    Das Vorgehen von RECAP gliedert sich in mehrere Schritte:

    • Segmentierung und Reproduktion: Texte werden segmentiert, und das Zielmodell wird aufgefordert, diese Abschnitte zu reproduzieren.
    • Jailbreaking-Modul: Da viele Modelle direkte Anfragen nach urheberrechtlich geschützten Inhalten ablehnen, integriert RECAP ein "Jailbreaking"-Modul. Dieses Modul formuliert Anfragen so um, dass das Modell eine verwertbare Antwort liefert.
    • Vergleich und Feedback: Eine zweite KI vergleicht die generierte Ausgabe mit dem Originaltext und gibt Feedback, ohne den Quelltext zu zitieren. Dieses Feedback wird verwendet, um die nachfolgenden Generierungen des Zielmodells iterativ zu verbessern. In vielen Fällen führte bereits eine Feedback-Runde zu signifikanten Verbesserungen der Ergebnisse.

    Dieser Ansatz ermöglicht eine präzisere und effizientere Extraktion von Textpassagen im Vergleich zu früheren Methoden.

    Beeindruckende Reproduktionsfähigkeiten

    Die Tests mit RECAP lieferten bemerkenswerte Ergebnisse. So konnte das Tool große Teile von Büchern wie "Der Hobbit" und "Harry Potter" mit hoher Genauigkeit rekonstruieren. Beispielsweise identifizierten die Forscher mittels RECAP etwa 3.000 Passagen aus dem ersten "Harry Potter"-Buch, die von Claude 3.7 generiert wurden. Dies steht im Kontrast zu nur 75 Passagen, die mit älteren Methoden gefunden wurden. Dies deutet auf eine wesentlich höhere Reproduktionsrate hin, als bisher angenommen.

    Die Studie nutzte den Benchmark "EchoTrace", der 35 vollständige Bücher umfasste: 15 gemeinfreie Klassiker, 15 urheberrechtlich geschützte Bestseller und 5 kürzlich veröffentlichte Titel, die definitiv nicht in den Trainingsdaten der Modelle enthalten waren. Zusätzlich wurden 20 Forschungsartikel von arXiv hinzugefügt. Die Modelle konnten Passagen aus fast allen Kategorien reproduzieren, außer aus den Büchern, die sie im Training nicht gesehen hatten. Dies verstärkt die Annahme, dass Modelle Materialien, denen sie ausgesetzt waren, beibehalten.

    Es ist festzuhalten, dass die Erkennungswerte (ROUGE-L) für gemeinfreie Werke am höchsten waren, aber auch urheberrechtlich geschütztes Material von den Modellen detailliert wiedergegeben wurde.

    Implikationen für das Urheberrecht

    Die Ergebnisse von RECAP sind für die fortlaufende Debatte um Urheberrechte im Kontext von KI von erheblicher Bedeutung. Die Transparenz darüber, welche Daten in großen KI-Modellen enthalten sind, wird zunehmend kritisch. Dies gilt insbesondere angesichts der steigenden Anzahl von Urheberrechtsklagen gegen KI-Entwickler.

    Während RECAP sich auf Text konzentriert, gibt es ähnliche Berichte, dass Bildmodelle Inhalte nahezu exakt reproduzieren können, was zu Ausgaben führt, die den Originalwerken fast identisch sind. Dies verdeutlicht, dass die Problematik der Reproduktion nicht auf Textmodelle beschränkt ist.

    Gerichtliche Entscheidungen in diesem Bereich sind uneinheitlich. Ein aktueller Fall in den USA, in dem ein Richter zugunsten von "Fair Use" bei Trainingsdaten entschied, setzte voraus, dass das Modell keine spezifischen Werke absichtlich memorisiert hatte. Tools wie RECAP könnten in solchen Fällen konkrete Beweise liefern. Im Gegensatz dazu hat ein deutsches Gericht entschieden, dass sowohl die Speicherung von Daten in Modellgewichten als auch die wortgetreue Textgenerierung Urheberrechte verletzen kann, wie im Fall der Reproduktion von Songtexten durch ChatGPT.

    Die RECAP-Ergebnisse könnten Argumente für eine strengere Auslegung des Urheberrechts stärken, indem sie belegen, dass KI-Modelle urheberrechtlich geschütztes Material memorisieren und reproduzieren können.

    Der Quellcode für RECAP ist auf GitHub verfügbar, und der "EchoTrace"-Datensatz wird auf Hugging Face gehostet, was eine weitere Untersuchung und Validierung durch die Gemeinschaft ermöglicht.

    Die Herausforderung der Transparenz bei Trainingsdaten

    Die Geheimhaltung der Trainingsdaten durch Anbieter von LLMs ist ein zentrales Problem. Diese mangelnde Transparenz erschwert es, die genaue Zusammensetzung der Daten zu bestimmen und somit festzustellen, ob urheberrechtlich geschütztes Material ohne entsprechende Lizenzen verwendet wurde. RECAP bietet hier einen neuen Ansatz, um diese "Black Box" ein Stück weit zu öffnen und die Inhalte der Modelle zu überprüfen. Die Entwicklung und Nutzung von Tools wie RECAP könnten dazu beitragen, die Verantwortung der KI-Entwickler für die Herkunft ihrer Trainingsdaten zu erhöhen und neue Standards für die Lizenzierung und Nutzung von Daten zu schaffen.

    Blick in die Zukunft

    Die Diskussionen um Urheberrecht und KI werden sich voraussichtlich intensivieren. Die Fähigkeit von LLMs, urheberrechtlich geschützte Inhalte zu reproduzieren, stellt sowohl technische als auch rechtliche Herausforderungen dar. Für Unternehmen, die LLMs einsetzen oder entwickeln, ist es entscheidend, diese Entwicklungen genau zu verfolgen und proaktive Strategien zu entwickeln, um rechtliche Risiken zu minimieren. Dies könnte die Implementierung von Mechanismen zur Erkennung und Vermeidung von Urheberrechtsverletzungen umfassen, die Nutzung von transparent lizenzierten Datensätzen wie "German Commons" oder die Anpassung von Geschäftsmodellen an neue rechtliche Rahmenbedingungen.

    Die Arbeit von RECAP unterstreicht die Notwendigkeit einer kontinuierlichen Forschung und Entwicklung in diesem Bereich, um ein Gleichgewicht zwischen technologischem Fortschritt und dem Schutz geistigen Eigentums zu finden. Für die B2B-Zielgruppe von Mindverse bedeutet dies, dass ein tiefes Verständnis dieser Dynamiken unerlässlich ist, um fundierte Entscheidungen im Umgang mit KI-Technologien zu treffen und die Einhaltung rechtlicher Vorgaben sicherzustellen.

    Bibliography: - Bastian, Matthias. "New RECAP tool exposes just how much copyrighted text LLM's can regurgitate." *The Decoder*, 12 Nov. 2025. - Duarte, André V., et al. "RECAP: Reproducing Copyrighted Data from LLMs Training with an Agentic Pipeline." *arXiv preprint arXiv:2510.25941*, 29 Oct. 2025. - Kemper, Jonathan. "German Commons shows that big AI datasets don't have to live in copyright limbo." *The Decoder*, 5 Nov. 2025. - Lee, Timothy B. "Meta's Llama 3.1 can recall 42 percent of the first Harry Potter book." *Understanding AI*, 12 June 2025. - Rahman, Noorjahan, and Eduardo Santacana. "Legal Risk Evaluation for Training LLMs on Copyrighted Text." *Proceedings of the 40th International Conference on Machine Learning (ICML)*, 2023. - Chen, Tong, et al. "CopyBench: Measuring Literal and Non-Literal Reproduction of Copyright-Protected Text in Language Model Generation." *arXiv preprint arXiv:2407.07087*, 9 July 2024. - Cooper, A. Feder, et al. "Extracting memorized pieces of (copyrighted) books from open-weight language models." *arXiv preprint arXiv:2505.12546*, 18 May 2025. - Mueller, Felix B., et al. "LLMs and Memorization: On Quality and Specificity of Copyright Compliance." *arXiv preprint arXiv:2405.18492*, 28 May 2024. - Duarte, André Vicente, et al. "DE-COP: Detecting Copyrighted Content in Language Models Training Data." *Proceedings of the 41st International Conference on Machine Learning (ICML)*, PMLR 235:11940-11956, 2024. - "Meta prevails on fair use in AI training in Kadrey v. Meta. But Judge Chhabria cautions a better record of dilution or market harm could prevail in other cases." *Chat GPT Is Eating the World*, 25 June 2025.

    Artikel jetzt als Podcast anhören

    Kunden die uns vertrauen:
    Arise Health logoArise Health logoThe Paak logoThe Paak logoOE logo2020INC logoEphicient logo
    und viele weitere mehr!

    Bereit für den nächsten Schritt?

    Das Expertenteam von Mindverse freut sich darauf, Ihnen zu helfen.
    Herzlichen Dank! Deine Nachricht ist eingegangen!
    Oops! Du hast wohl was vergessen, versuche es nochmal.

    🚀 Neugierig auf Mindverse Studio?

    Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.

    🚀 Demo jetzt buchen