Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Eine aktuelle Studie enthüllt ein erhebliches Problem im Bereich der Künstlichen Intelligenz (KI): Sensible personenbezogene Daten wurden in einem der größten öffentlich zugänglichen Datensätze für das Training von KI-Bildgeneratoren gefunden. Der DataComp CommonPool, mit 12,8 Milliarden Bild-Text-Paaren, diente als Grundlage für die Ausbildung generativer KI-Modelle. Die Forschung, veröffentlicht auf arXiv.org, dokumentiert das Auffinden von Millionen Bildern von Reisepässen, Ausweisen, Kreditkarten und Geburtsurkunden, die personenbezogene Informationen enthielten. Der untersuchte Ausschnitt von 0,1 Prozent des Datensatzes enthüllte bereits tausende solcher Bilder, inklusive identifizierbarer Gesichter. Die Forscher schätzen die tatsächliche Anzahl der Bilder mit personenbezogenen Daten auf „Hunderte Millionen“.
Die Studie unterstreicht die weitreichenden Implikationen dieser Entdeckung. Die verwendeten Daten stammen aus Web-Scraping, einer Methode zur automatisierten Datensammlung aus dem Internet. Die Forscher weisen darauf hin, dass „alles, was man online stellt, gesammelt werden kann und wahrscheinlich auch schon gesammelt wurde“. Die Analyse umfasste nicht nur Identitätsdokumente, sondern auch 800 verifizierte Bewerbungsunterlagen mit persönlichen Daten wie Kontaktdaten, staatlichen Identifikationsnummern und soziodemografischen Informationen. Viele weitere Fälle konnten aufgrund von Zeitmangel oder unzureichender Bildqualität nicht validiert werden. Der DataComp CommonPool wurde bereits über zwei Millionen Mal heruntergeladen, was auf eine große Anzahl nachgelagerter KI-Modelle hindeutet, die mit diesen Daten trainiert wurden.
Die Kuratoren von DataComp CommonPool waren sich des Risikos bewusst und implementierten Maßnahmen zur automatischen Erkennung und Unkenntlichmachung von Gesichtern. Trotzdem entgingen dem Algorithmus hunderte Gesichter, die von den Forschern identifiziert und verifiziert wurden. Die Hochrechnung deutet auf schätzungsweise 102 Millionen frei zugänglicher Gesichter hin. Die Studie kritisiert das Fehlen effektiver Filter für bekannte PII-Zeichenfolgen wie E-Mail-Adressen oder Sozialversicherungsnummern. Die Forscher betonen die Komplexität der Datenfilterung und die Notwendigkeit signifikanter Fortschritte in diesem Bereich.
Auch die Möglichkeit der nachträglichen Datenlöschung ist begrenzt. Plattformen wie Hugging Face, die Trainingsdatensätze hosten, bieten zwar Werkzeuge zur Suche und Löschung persönlicher Informationen, jedoch betrifft dies nur zukünftige Downloads. Betroffene müssen zudem wissen, dass ihre Daten im Datensatz enthalten sind. Experten betonen, dass selbst die Entfernung persönlicher Informationen aus dem Datensatz den Schaden nicht rückgängig macht, wenn das bereits trainierte KI-Modell weiterhin verwendet wird.
Die Studie wirft Fragen zur Angemessenheit bestehender Datenschutzgesetze im Kontext von KI auf. Gesetze wie die DSGVO und der CCPA gelten nicht für alle Akteure im KI-Bereich, insbesondere nicht für Forscher. Ausnahmen für „öffentlich zugängliche“ Informationen verschärfen das Problem. Die Studie hinterfragt die Annahme, dass alles, was online frei verfügbar ist, auch öffentlich und nicht mehr privat ist. Experten betonen die Notwendigkeit einer Neubewertung dieses Konzepts im Zeitalter der KI, da viele als „öffentlich zugänglich“ eingestufte Daten von den Betroffenen als privat angesehen werden.
Die Daten im DataComp CommonPool stammen größtenteils aus der Zeit vor der Veröffentlichung von ChatGPT (vor 2020). Viele der betroffenen Personen konnten daher nicht zustimmen, dass ihre Daten für das Training von KI-Modellen verwendet werden. Die unkontrollierte Vervielfältigung von Daten durch Web-Scraper verschärft das Problem, da das Löschen von Daten an einer Stelle keine Wirkung auf andere Datensätze hat.
Die Studie zeigt die Herausforderungen bei der Gewährleistung des Datenschutzes im Kontext des Trainings von KI-Modellen auf. Die unkontrollierte Datensammlung durch Web-Scraping und die Grenzen bestehender Datenschutzgesetze erfordern ein Umdenken in der KI-Branche. Es besteht dringender Bedarf an effektiveren Methoden zur Datenfilterung und -anonymisierung, sowie an einer umfassenderen rechtlichen und ethischen Regulierung. Die Studie unterstreicht die Notwendigkeit einer kritischen Auseinandersetzung mit dem Konzept „öffentlich zugänglicher Informationen“ und die Verantwortung aller Akteure im KI-Ökosystem, den Datenschutz zu gewährleisten.
Die Studie wirft eine Reihe von wichtigen Forschungsfragen auf, die zukünftig untersucht werden sollten. Dazu gehören:
- Die Entwicklung effektiverer Methoden zur Identifizierung und Entfernung sensibler Daten aus großen Datensätzen. - Die Erforschung neuer rechtlicher Rahmenbedingungen, die den spezifischen Herausforderungen des Datenschutzes im Kontext von KI gerecht werden. - Die Entwicklung ethischer Leitlinien für die Datensammlung und -nutzung im KI-Bereich. - Die Untersuchung der langfristigen Auswirkungen des Einsatzes von KI-Modellen, die mit sensiblen Daten trainiert wurden. - Die Entwicklung von Mechanismen zur Aufklärung und zum Schutz von Betroffenen, deren Daten in KI-Trainingsdatensätzen enthalten sind.Die vorliegende Analyse verdeutlicht die Notwendigkeit eines proaktiven und umfassenden Ansatzes zum Datenschutz im Bereich der KI. Nur durch eine enge Zusammenarbeit von Forschern, Entwicklern, Gesetzgebern und der Öffentlichkeit kann ein verantwortungsvoller Umgang mit Daten und ein Schutz der Privatsphäre gewährleistet werden.
Bibliographie - MIT Technology Review. (2025, August 9). Forscher finden sensible Daten in einem der größten öffentlichen KI-Trainingsets – warum das ein großes Problem ist. [Online]. Verfügbar unter: https://t3n.de/news/forscher-finden-sensible-daten-in-einem-der-groeszten-oeffentlichen-ki-trainingsets-1699517/ - Weitere Quellen (siehe Aufgabenstellung)Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen