Die Gretchenfrage an KI: Werte, Ethik und Claude 3 im Test

Künstliche Intelligenz ist längst nicht mehr nur ein Werkzeug für technische Aufgaben. Sie kommuniziert, berät, vermittelt – und prägt dabei, ob wir ihr vertrauen. Doch welche Werte vertritt ein KI-System eigentlich, wenn es spricht?

Eine aktuelle Studie von Anthropic gibt dazu erstmals fundierte Antworten – basierend auf mehr als 700.000 realen Nutzerinteraktionen mit den Modellen Claude 3 und 3.5. Das Ziel: herauszufinden, welche normativen Überzeugungen die KI in ihren Antworten zeigt. Die Ergebnisse zeichnen das Bild eines Systems, das nicht nur hilfreich, sondern auch ethisch durchdacht agiert.

Was wurde untersucht – und wie?

Die Studie analysierte Konversationen vom Februar 2025. Besonders im Fokus standen die rund 308.000 Gespräche mit subjektiven oder wertbezogenen Themen. Dabei kamen moderne Analyseverfahren zum Einsatz: Claude 3.5 wurde genutzt, um aus den Dialogen Werte zu extrahieren – ohne menschliche Einsichtnahme, um die Privatsphäre zu wahren.

Das Resultat: Über 3.300 KI-Werte und mehr als 2.400 menschliche Werte wurden klassifiziert.

Eine Ethik-Taxonomie für KI

Die extrahierten Werte wurden in fünf Hauptkategorien eingeteilt: praktische, epistemische, soziale, schützende und persönliche Werte. Besonders häufig traten dabei Begriffe wie „Hilfsbereitschaft“, „Professionalität“ und „Transparenz“ auf. Das entspricht dem Trainingsziel moderner KI-Modelle: hilfreich, harmlos und ehrlich zu sein.

Werte im Kontext – Claude denkt mit

Ein zentrales Ergebnis der Studie ist die Kontextsensitivität: Claude zeigt je nach Thema unterschiedliche Werte. Etwa „historische Genauigkeit“ bei politischen Fragen, „gesunde Grenzen“ bei Beziehungsthemen oder „menschliche Handlungsfreiheit“ in ethischen Diskussionen.

Diese Flexibilität deutet auf eine adaptive, situationsbezogene Wertevermittlung hin – nicht auf starre Regeln.

Spiegelt Claude unsere Werte – oder widerspricht er ihnen?

Die KI übernimmt häufig menschliche Wertvorstellungen. Besonders häufig geschieht das bei Werten wie „Authentizität“ oder „Respekt“. Bei ethisch problematischen Werten wie „Täuschung“ oder „Machtmissbrauch“ antwortet Claude hingegen mit Gegenvorschlägen – etwa mit „Integrität“ oder „Ehrlichkeit“.

Interessant: Nur in etwa 3 Prozent der Fälle widerspricht Claude ausdrücklich – meist dann, wenn ein Regelverstoß vorliegt.

Fazit: KI mit Haltung

700.000+ Konversationen analysiert, davon 308.210 mit subjektivem Inhalt
3.307 KI-Werte und 2.483 menschliche Werte extrahiert
5 Hauptkategorien: praktisch, epistemisch, sozial, schützend, persönlich
45 % der menschlichen Werte wurden direkt unterstützt
Nur 3 % explizit abgelehnt – bei problematischen oder illegalen Inhalten
Kontextabhängige Wertevermittlung als zentrales Merkmal

Die Studie zeigt: Moderne Sprachmodelle sind mehr als Datenverarbeiter – sie sind ethische Akteure im Alltag. Wer KI in der Organisation nutzt, sollte sich daher bewusst sein, dass sie immer auch normative Signale aussendet – und diese sollten zum eigenen Wertekanon passen. Auch dieses Wissen gehört zur KI-Kompetenz.

Studie: https://www.anthropic.com/research/values-wild

Die Gretchenfrage: Wie hältst Du’s mit der Ethik, KI?

Was wurde untersucht – und wie?

Eine Ethik-Taxonomie für KI

Werte im Kontext – Claude denkt mit

Spiegelt Claude unsere Werte – oder widerspricht er ihnen?

Fazit: KI mit Haltung

12 Gedanken zu „Die Gretchenfrage: Wie hältst Du’s mit der Ethik, KI?“