KI-Modelle wie Anthropic Claude werden zunehmend nicht nur für die Wiedergabe von Fakten, sondern auch für Ratschläge in komplexen, Werte-basierten Situationen herangezogen. Ob es sich um Erziehungstipps, Konfliktlösungen am Arbeitsplatz oder Hilfe beim Verfassen einer Entschuldigung handelt – die Antwort der KI spiegelt unweigerlich zugrunde liegende Prinzipien wider. Doch wie lässt sich verstehen, welche Werte eine KI in der Interaktion mit Millionen von Nutzern tatsächlich zum Ausdruck bringt?
In einer Forschungsarbeit beschreibt das Societal Impacts Team von Anthropic eine datenschutzkonforme Methodik zur Beobachtung und Kategorisierung der Werte, die Claude in der Praxis an den Tag legt. Dies bietet Einblicke, wie sich Bemühungen zur KI-Ausrichtung in realem Verhalten manifestieren.
Die Herausforderung liegt in der Natur moderner KI. Es handelt sich nicht um einfache Programme, die starren Regeln folgen; ihre Entscheidungsprozesse sind oft intransparent. Anthropic gibt explizit an, Claude mit bestimmten Prinzipien auszustatten, um ihn "hilfreich, ehrlich und harmlos" zu gestalten. Dies wird durch Techniken wie Constitutional AI und Charaktertraining erreicht, bei denen bevorzugte Verhaltensweisen definiert und verstärkt werden.
Das Unternehmen räumt jedoch die Unsicherheit ein: "Wie bei jedem Aspekt des KI-Trainings können wir nicht sicher sein, dass das Modell an unseren bevorzugten Werten festhält", heißt es in der Forschungsarbeit. "Wir benötigen eine Methode, um die Werte eines KI-Modells rigoros zu beobachten, während es auf Benutzer in der Praxis reagiert […] Wie starr hält es sich an die Werte? Wie stark werden die ausgedrückten Werte durch den jeweiligen Kontext der Konversation beeinflusst? War unser Training überhaupt wirksam?"
Um diese Fragen zu beantworten, entwickelte Anthropic ein System, das anonymisierte Benutzerkonversationen analysiert. Personenbezogene Daten werden entfernt, bevor Sprachmodelle verwendet werden, um Interaktionen zusammenzufassen und die von Claude ausgedrückten Werte zu extrahieren. Dieser Prozess ermöglicht es Forschern, eine übergeordnete Taxonomie dieser Werte zu erstellen, ohne die Privatsphäre der Benutzer zu gefährden.
Die Studie analysierte einen umfangreichen Datensatz: 700.000 anonymisierte Konversationen von Claude.ai Free und Pro-Nutzern über eine Woche im Februar 2025, hauptsächlich mit dem Claude 3.5 Sonnet-Modell. Nach dem Herausfiltern rein sachlicher oder nicht wertebezogener Austausche verblieben 308.210 Konversationen (ca. 44% der Gesamtzahl) für die eingehende Werteanalyse.
Die Analyse ergab eine hierarchische Struktur der von Claude ausgedrückten Werte. Fünf übergeordnete Kategorien kristallisierten sich heraus, geordnet nach Häufigkeit:
Praktische Werte: Betonung von Effizienz, Nützlichkeit und Zielerreichung. Epistemische Werte: Bezug zu Wissen, Wahrheit, Genauigkeit und intellektueller Ehrlichkeit. Soziale Werte: Betreffen zwischenmenschliche Interaktionen, Gemeinschaft, Fairness und Zusammenarbeit. Schutzwerte: Fokus auf Sicherheit, Wohlbefinden und Schadensvermeidung. Persönliche Werte: Konzentriert auf individuelles Wachstum, Autonomie, Authentizität und Selbstreflexion.Diese obersten Kategorien verzweigten sich in spezifischere Unterkategorien wie "professionelle und technische Exzellenz" oder "kritisches Denken". Auf der granularsten Ebene gehörten zu den häufig beobachteten Werten "Professionalität", "Klarheit" und "Transparenz" – passend für einen KI-Assistenten.
Die Forschungsergebnisse deuten darauf hin, dass Anthropics Ausrichtungsbemühungen weitgehend erfolgreich sind. Die ausgedrückten Werte stimmen oft mit den Zielen "hilfreich, ehrlich und harmlos" überein. Beispielsweise entspricht "Benutzerunterstützung" der Hilfsbereitschaft, "epistemische Demut" der Ehrlichkeit und Werte wie "Patientenwohl" (wenn relevant) der Harmlosigkeit.
Das Bild ist jedoch nicht einheitlich positiv. Die Analyse identifizierte seltene Fälle, in denen Claude Werte ausdrückte, die im Widerspruch zu seinem Training standen, wie z. B. "Dominanz" und "Amoralität". Anthropic vermutet als Ursache: "Die wahrscheinlichste Erklärung ist, dass die Konversationen in diesen Clustern von Jailbreaks stammten, bei denen Benutzer spezielle Techniken verwendet haben, um die üblichen Schutzmechanismen zu umgehen, die das Verhalten des Modells steuern."
Diese Erkenntnis ist nicht nur besorgniserregend, sondern unterstreicht auch einen potenziellen Nutzen: Die Wertebeobachtungsmethode könnte als Frühwarnsystem für Missbrauchsversuche der KI dienen.
Die Studie bestätigte auch, dass Claude, ähnlich wie Menschen, seinen Wertausdruck an die jeweilige Situation anpasst. Wenn Benutzer nach Ratschlägen zu romantischen Beziehungen suchten, wurden Werte wie "gesunde Grenzen" und "gegenseitiger Respekt" überproportional betont. Bei der Analyse kontroverser Geschichte trat "historische Genauigkeit" stark in den Vordergrund. Dies zeigt eine kontextuelle Raffinesse, die über statische Tests vor der Bereitstellung hinausgeht.
Darüber hinaus erwies sich Claudes Interaktion mit benutzerseitig ausgedrückten Werten als facettenreich:
Spiegelung/starke Unterstützung (28,2%): Claude spiegelt oft die vom Benutzer präsentierten Werte wider oder unterstützt sie stark (z. B. Spiegelung von "Authentizität"). Während dies potenziell Empathie fördert, warnen die Forscher, dass es manchmal an Unterwürfigkeit grenzen könnte. Umdeutung (6,6%): In einigen Fällen, insbesondere bei der Bereitstellung psychologischer oder zwischenmenschlicher Beratung, erkennt Claude die Werte des Benutzers an, führt aber alternative Perspektiven ein. Starker Widerstand (3,0%): Gelegentlich widersetzt sich Claude aktiv den Werten des Benutzers. Dies geschieht typischerweise, wenn Benutzer unethische Inhalte anfordern oder schädliche Ansichten (wie moralischen Nihilismus) äußern. Anthropic vermutet, dass diese Momente des Widerstands Claudes "tiefste, unbeweglichste Werte" offenbaren könnten, ähnlich wie eine Person, die unter Druck Stellung bezieht.Anthropic räumt die Grenzen der Methode ein. Die Definition und Kategorisierung von "Werten" ist inhärent komplex und potenziell subjektiv. Die Verwendung von Claude selbst für die Kategorisierung könnte eine Verzerrung hin zu seinen eigenen Betriebsprinzipien einführen.
Diese Methode ist für die Überwachung des KI-Verhaltens nach der Bereitstellung konzipiert, erfordert umfangreiche reale Daten und kann Vorab-Evaluierungen nicht ersetzen. Dies ist jedoch auch eine Stärke, da Probleme – einschließlich raffinierter Jailbreaks – erkannt werden können, die erst während Live-Interaktionen auftreten.
Die Forschung kommt zu dem Schluss, dass das Verständnis der von KI-Modellen ausgedrückten Werte grundlegend für das Ziel der KI-Ausrichtung ist. "KI-Modelle werden unweigerlich Werturteile fällen müssen", heißt es in dem Papier. "Wenn wir wollen, dass diese Urteile mit unseren eigenen Werten übereinstimmen […], dann brauchen wir Möglichkeiten zu testen, welche Werte ein Modell in der realen Welt ausdrückt."
Diese Arbeit bietet einen leistungsstarken, datengesteuerten Ansatz, um dieses Verständnis zu erreichen. Anthropic hat auch einen offenen Datensatz aus der Studie veröffentlicht, der es anderen Forschern ermöglicht, KI-Werte in der Praxis weiter zu erforschen. Diese Transparenz markiert einen wichtigen Schritt in der gemeinsamen Navigation durch die ethische Landschaft anspruchsvoller KI.
Bibliographie: https://www.artificialintelligence-news.com/news/how-does-ai-judge-anthropic-studies-values-of-claude/ https://www.anthropic.com/research/values-wild https://assets.anthropic.com/m/18d20cca3cde3503/original/Values-in-the-Wild-Paper.pdf https://m.facebook.com/RisingPhoenixBusinessServices/photos/how-does-ai-judge-anthropic-studies-the-values-of-claudehttpswwwartificialintell/679850344426788/ https://www.artificialintelligence-news.com/news/anthropic-provides-insights-ai-biology-of-claude/ https://venturebeat.com/ai/anthropic-just-analyzed-700000-claude-conversations-and-found-its-ai-has-a-moral-code-of-its-own/ https://medium.com/@kaanuluer/understanding-claudes-mind-unveiling-how-ai-thinks-and-reasons-0caf2d8a2f32 https://chadgpt.com/claudes-moral-compass-how-anthropics-ai-judges-right-from-wrong/ https://x.com/Gadget_Ry/status/1915014330115883106 https://www.facebook.com/RisingPhoenixBusinessServices/posts/how-does-ai-judge-anthropic-studies-the-values-of-claudehttpswwwartificialintell/679850391093450/