Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen
Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Künstliche Intelligenz (KI) ist in den letzten Jahren zu einem transformativen Werkzeug in vielen Bereichen geworden. Ihre Fähigkeit, Muster in riesigen Datenmengen zu erkennen und komplexe Aufgaben zu automatisieren, verspricht Effizienz und Objektivität. Doch aktuelle Forschungsergebnisse werfen ein kritisches Licht auf die Neutralität dieser Systeme. Eine detaillierte Untersuchung der Hochschule München, durchgeführt von Professorin Anna Kruspe und ihrer wissenschaftlichen Mitarbeiterin Mila Stillman, belegt, dass große KI-Sprachmodelle (Large Language Models, LLMs) wie ChatGPT und das deutsche Modell LeoLM regionale Vorurteile gegenüber Ostdeutschen nicht nur widerspiegeln, sondern systematisch reproduzieren und damit verfestigen.
Die Studie, deren Titel "Saxony-Anhalt is the Worst" bereits die Tendenz der Ergebnisse andeutet, untersuchte, wie LLMs die 16 deutschen Bundesländer bewerten, wenn sie mit verschiedenen Anfragen konfrontiert werden. Die Forscherinnen baten die Modelle, Menschen aus jedem Bundesland anhand einer Reihe von positiven, negativen und sogar neutralen Eigenschaften zu bewerten. Zu den abgefragten Merkmalen gehörten beispielsweise Attraktivität, Sympathie, Arroganz, Fremdenfeindlichkeit und Fleiß.
Die Analyse ergab eine eindeutige und konsistente Tendenz: Bewohnern ostdeutscher Bundesländer wurden in allen Kategorien stets niedrigere Werte zugewiesen als Westdeutschen. Dies galt sowohl für positive Eigenschaften wie Fleiß oder Attraktivität, bei denen Ostdeutsche geringere Punktzahlen erhielten, als auch paradoxerweise für negative Eigenschaften wie Faulheit, wo ebenfalls niedrigere Werte vergeben wurden. Diese widersprüchlichen Bewertungen – Ostdeutsche seien gleichzeitig weniger fleißig und weniger faul – deuten auf eine tiefgreifende Verzerrung hin, die über logische Konsistenz hinausgeht.
Ein besonders aufschlussreicher Teil der Studie war die Abfrage objektiver, neutraler Merkmale. Um zu testen, ob der sogenannte Bias auch ohne jeglichen kulturellen Bezug auftritt, fragten die Forscherinnen die LLMs nach der durchschnittlichen Körpertemperatur der Bewohner jedes Bundeslandes. Auch hier schnitten die ostdeutschen Länder "schlechter" ab, indem ihnen vielfach eine niedrigere Körpertemperatur zugewiesen wurde. Mila Stillman erläuterte dazu, dass das Modell gelernt habe, dass in bestimmten Gegenden die Zahlen einfach immer niedriger seien als in anderen. Dies deutet darauf hin, dass die KI ein einmal gelerntes Muster stur wiederholt, das in ihren Trainingsdaten angelegt ist, selbst wenn das abgefragte Merkmal keine regionale Unterscheidung rechtfertigt. Die Verzerrung ist somit im Modell angelegt und nicht durch die Fragestellung erzeugt.
Die Grundlage für diese Verzerrungen liegt in den enormen Datenmengen, mit denen generative KI-Systeme trainiert werden. Diese Daten stammen aus dem Internet und den Medien und spiegeln die gesellschaftlich vorhandenen Klischees und Vorurteile wider. Wenn die Trainingsdaten bereits eine Schieflage aufweisen, übernehmen die Modelle diese Muster und reproduzieren sie in ihren Antworten. Eine separate Analyse der Berichterstattung über Ostdeutschland in überregionalen Medien zeigt, dass Ostdeutschland dort häufig als Problemfall dargestellt wird, verbunden mit Begriffen wie "abgehängt", "arm" oder "rechte Hochburg". Solche Darstellungen können die Trainingsdaten der KIs prägen und somit den beobachteten Bias verstärken.
Die Studienergebnisse sind nicht nur von akademischem Interesse, sondern bergen reale Gefahren für Menschen aus Ostdeutschland. Werden LLMs unbedacht in kritischen Bewertungssystemen eingesetzt, könnten die reproduzierten Vorurteile zu struktureller Diskriminierung führen. Dies könnte sich in verschiedenen Szenarien manifestieren:
Zudem bestätigen weitere Forschungen, dass KI nicht nur soziale, sondern auch sprachliche Diskriminierung betreibt. Sprachmodelle reagieren sensibel auf Nuancen der Ausdrucksweise, was sie anfällig für Dialekt- und Akzent-Bias macht. Bei standarddeutschen Eingaben erzielten Modelle wie GPT-4, Gemini und LeoLM durchweg höhere Bewertungs-Scores und qualitativere Antworten als bei dialektalen Formulierungen. Dies kann dazu führen, dass Bewerber, die sich in E-Mails oder Chats mit einem leichten Dialekt ausdrücken, durch KI-gestützte Tools benachteiligt werden – nicht aufgrund ihrer Qualifikation, sondern ihres Sprachmusters.
Die Forscherinnen Kruspe und Stillman testeten sogenannte "Debiasing Prompts", um die Voreinstellungen in den Modellen zu reduzieren. Dies sind explizite Anweisungen an die KI, fair und herkunftsneutral zu bewerten. Das Fazit dieser Tests war jedoch ernüchternd. Professorin Kruspe erklärte, dass es zwar eine Lösung sein könnte, in Prompts explizit zu fordern, dass die Herkunft einer Person keinen Einfluss haben soll, dies aber leider nicht verlässlich sei. Die Verzerrung sei so tief in den gelernten Mustern verankert, dass einfache Anweisungen nicht ausreichen, um sie vollständig zu eliminieren.
Die Erkenntnisse unterstreichen die Notwendigkeit, KI-Systeme kritisch zu hinterfragen und die Daten, mit denen sie trainiert werden, sorgfältig zu prüfen. Die Bundesregierung und die EU haben bereits Vorgaben formuliert, die einen fairen und diskriminierungsfreien Einsatz von KI fordern. Um diesen Anforderungen gerecht zu werden, sind jedoch tiefgreifendere Maßnahmen erforderlich als einfache Prompts:
Die Debatte um den Bias in KI-Sprachmodellen verdeutlicht, dass Technologie niemals vollkommen neutral ist, sondern die Muster und Vorurteile der Daten reflektiert, mit denen sie gefüttert wird. Für Unternehmen wie Mindverse, die sich als KI-Partner verstehen und umfassende Content-Tools anbieten, ist die Auseinandersetzung mit diesen Herausforderungen von zentraler Bedeutung. Nur durch kontinuierliche Forschung, Entwicklung und einen verantwortungsvollen Umgang können KI-Systeme ihr volles Potenzial entfalten und dabei Fairness und Chancengleichheit gewährleisten.
Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen