Bias in Chatbots – Rassistische Antworten und ihre Ursachen
Frage
Ist es Bias, wenn Chatbots rassistisch antworten?
Kurze Antwort
Ja — oft schon, aber nicht immer ausschließlich.
In der KI bezeichnet „Bias" allgemein eine systematische Verzerrung. Wenn ein Chatbot rassistische Antworten erzeugt, kann das verschiedene Ursachen haben:
Ironie, Zitate oder Diskussionen werden falsch verstanden
Beispiel für Bias
Wenn ein Modell bestimmte Gruppen systematisch negativer beschreibt oder stereotypisiert. Das kann entstehen, weil:
Internetdaten Vorurteile enthalten,
historische Texte diskriminierend sind,
statistische Muster unkritisch übernommen werden.
Wichtig: LLMs „denken" nicht rassistisch im menschlichen Sinn. Sie erzeugen Wahrscheinlichkeiten für Sprache auf Basis ihrer Trainingsdaten.
Bekanntes Beispiel
Microsoft Tay (2016): Microsofts Twitter-Chatbot „Tay" wurde innerhalb von 16 Stunden abgeschaltet, nachdem Nutzer ihn gezielt mit rassistischen und antisemitischen Inhalten gefüttert hatten, die er unkritisch wiedergab. Dies ist ein Beispiel für Prompt-Manipulation in Kombination mit fehlenden Sicherheitsfiltern.
Gegenmaßnahmen
Trainingsdaten filtern und kuratieren
RLHF (Reinforcement Learning from Human Feedback) – menschliches Feedback zur Steuerung
Red-Teaming – gezielte Angriffstests vor Veröffentlichung
Bias-Typen in der KI-Forschung
Statistical Bias – systematische Abweichung in Daten oder Modellvorhersagen
Social Bias – gesellschaftliche Vorurteile (Geschlecht, Ethnie, Religion etc.) im Modell
Representational Bias – ungleiche oder stereotype Darstellung von Gruppen
Allocational Bias – ungleiche Verteilung von Ressourcen oder Chancen durch das System
Historical Bias – Verzerrungen aus historisch gewachsenen Ungleichheiten in den Daten
Das Thema ist ein großes Forschungsfeld in Machine Learning und AI Ethics.
Quellen
Gallegos, I. O. et al. (2024): Bias and Fairness in Large Language Models: A Survey. Computational Linguistics, Vol. 50, Issue 3. — MIT Press
Google Developers (2024): Fairness: Types of Bias. Machine Learning Crash Course. — developers.google.com
Hofmann, V. et al. (2024): AI generates covertly racist decisions about people based on their dialect. Nature. — nature.com
Stanford HAI (2024): Covert Racism in AI: How Language Models Are Reinforcing Outdated Stereotypes. — hai.stanford.edu
MIT News (2024): Study reveals AI chatbots can detect race, but racial bias reduces response empathy. — news.mit.edu
Wikipedia: Tay (chatbot) – Microsofts Twitter-Bot, der 2016 nach 16 Stunden abgeschaltet wurde. — wikipedia.org
Navigli, R. et al. (2023): Biases in Large Language Models: Origins, Inventory, and Discussion. ACM Journal of Data and Information Quality. — dl.acm.org