# taz.de -- Gender Bias bei Übersetzungsoftware: Treffen sich zwei Ärztinnen | |
> Maschinelle Übersetzungen sind nicht neutral, sondern geprägt von | |
> männlicher Norm. Sie reproduzieren real existierende Zuschreibungen. | |
Bild: Bei Google Translate wird „the nurse“ automatisch zur „Krankenschwe… | |
Wer bei Google Translate „the doctor“ eingibt, sieht im Feld nebenan als | |
Übersetzung den Begriff „der Doktor“. „The nurse“ wird zur | |
„Krankenschwester“. Dabei könnte es auch „die Ärztin“ und „der | |
Krankenpfleger“ heißen, denn beide englische Begriffe sind an kein | |
Geschlecht gebunden. | |
Dass maschinelle Übersetzungsdienste ihre Grenzen haben, was natürlich | |
klingende Übertragungen in eine Zielsprache angeht, haben die meisten von | |
uns bereits selbst erfahren. Weniger bekannt sind die geschlechtsbezogenen | |
Verzerrungseffekte der Programme – [1][man spricht vom sogenannten Gender | |
Bias.] | |
Automatisierte Übersetzungen sind für viele Menschen mittlerweile | |
alltäglich. Wir verwenden sie im Büro, auf Reisen oder in den sozialen | |
Medien. Hat man im Gespräch einen wichtigen Begriff nicht parat oder | |
versteht einen Post auf Facebook nicht, ist das Problem mit einem Klick | |
gelöst. Dabei sollten wir uns jedoch bewusst machen: Maschinelle | |
Übersetzungen sind nicht so neutral, wie sie auf den ersten Blick wirken. | |
Am deutlichsten illustrieren lässt sich der Gender Bias an Sprachen, die | |
nur ein Pronomen für alle Geschlechter kennen, wie etwa das Finnische. Der | |
Satz „Hän on opettaja“ könnte gleichermaßen „Sie ist Lehrerin“ oder … | |
Lehrer“ heißen. Die Übersetzungsmaschine hat also zwei Möglichkeiten: | |
Entweder bietet sie beide Optionen als Übersetzung an oder sie entscheidet | |
sich für ein Geschlecht. Aus unserem Beispiel macht sowohl Google als auch | |
das Kölner Unternehmen DeepL, dessen Übersetzungen häufig besser als bei | |
der Konkurrenz funktionieren: „Er ist Lehrer“. Bei einer Aussage über eine | |
Person, die im Kindergarten arbeitet, erscheint hingegen der Satz: „Sie ist | |
Kindergärtnerin.“ | |
## Vorurteile werden ständig reproduziert | |
Was hier geschieht: Die Übersetzungsmaschine spiegelt gesellschaftliche | |
Vorurteile wider. Und das rührt von den Texten her, auf deren Grundlage die | |
Übersetzungen erstellt werden. Automatisierte Systeme basieren auf Daten. | |
Im Falle von Übersetzungen sind das Datenbanken, die Textpaare aus je zwei | |
Sprachen enthalten. Doch Daten sind keine neutralen Informationen aus dem | |
luftleeren Raum. [2][Welche Bilder, Klischees oder Verzerrungen sie | |
enthalten, bestimmt, wie ein Textstück übersetzt wird.] | |
Stichproben zeigen, dass der Gender Bias weit über Berufsklischees | |
hinausgeht. Auch Adjektive werden Subjekten entsprechend gängiger | |
Vorurteile zugewiesen. Beginnen wir erneut einen finnischen Satz mit „Hän | |
on“ und ergänzen Adjektive wie stark, muskulös oder intelligent, bezieht | |
sich der Satz in der Übersetzung bei Google Translate auf eine männliche | |
Person – herauskommt etwa: „Er ist stark.“ Wählt man jedoch Adjektive wie | |
schön oder kinderlieb, wird die Übersetzung weiblich. Dies lässt sich damit | |
erklären, dass das Programm in seinem Lernprozess Wörter in einen | |
Zusammenhang stellt, die in den zugrundeliegenden Texten häufig nahe | |
beieinander stehen. Vorurteile werden so durch die Übersetzungen ständig | |
reproduziert. | |
Doch nicht immer basiert die Verzerrung allein auf den zugrundeliegenden | |
Paralleltexten. Zusätzlich ins Gewicht fällt, dass für viele seltenere | |
Sprachpaare nicht genügend Referenztexte vorliegen und deshalb ein Umweg | |
über eine dritte Sprache genommen wird: Die Ausgangssprache wird zunächst | |
in die Brückensprache übersetzt und von dort aus weiter in die Zielsprache. | |
Das weltweite Vorherrschen der englischen Sprache lässt diese zur | |
Brückensprache der Wahl werden. Doch da sich im Englischen viele Begriffe | |
nicht auf ein bestimmtes Geschlecht beziehen, können auf dem Umweg Inhalte | |
verlorengehen. Spricht der Ausgangssatz beispielsweise von einer Ärztin, | |
welche im Englischen zum neutralen Begriff „doctor“ wird, ergibt sich | |
daraus im Zielsatz vermutlich aufgrund der zugrundeliegenden Textkorpora | |
ein „Arzt“. So kann die Fixierung auf die englische Sprache als Standard | |
Übersetzungen verzerren. | |
## Wie wichtig sind Identität und Erfahrung? | |
Doch bei bloßen Verzerrungen bleibt es nicht. Nehmen wir den deutschen | |
Satz: „Zwei Ärztinnen und zwei Ärzte treffen sich.“ Da sowohl Ärztinnen … | |
auch Ärzte im Englischen unter „doctors“ laufen, nimmt der | |
Übersetzungsdienst eine versehentliche Doppelung an. So wird aus dem | |
Ausgangssatz nicht etwa „Two doctors and two doctors meet“, sondern | |
schlichtweg „Two doctors meet“. Übrig bleiben also nicht vier medizinische | |
Fachkräfte, sondern nur mehr zwei. | |
Das gleiche falsche Ergebnis erhält man etwa auch bei einer Übersetzung ins | |
Spanische, obwohl hier ein weiblicher Begriff existiert. Im Gegensatz zu | |
Google Translate generiert DeepL allerdings einen Satz mit explizit | |
genannten weiblichen und männlichen Subjekten: „Two female doctors and two | |
male doctors meet.“ | |
Dass die Übertragung von Texten kein neutrales, gänzlich unpolitisches | |
Terrain ist, fällt nicht nur bei maschinellen Übersetzungen auf, sondern | |
war auch Thema kritischer Berichterstattung im Fall des Gedichts der | |
amerikanischen Lyrikerin Amanda Gorman. Nicht nur in Deutschland wurde die | |
Frage gestellt, wer geeignet sei, das Werk der Schwarzen Autorin ins | |
Deutsche zu übertragen und [3][wie wichtig bei der Auswahl Identität und | |
Erfahrung der übersetzenden Person sein sollten.] | |
Die Erfahrung einer Übersetzungsmaschine basiert auf dem, was ihr | |
beigebracht – in sie eingespeist – wurde. Und so tritt nicht nur ein Gender | |
Bias zu Tage, sondern auch andere Machtdimensionen lassen sich ausmachen. | |
Mit dem Begriff „beurette“ werden in Frankreich Frauen bezeichnet, deren | |
familiäre Geschichte man in Nordafrika verortet. Das Wort kann Beleidigung | |
sein, wird aber teils auch von Aktivist:innen als Selbstbezeichnung | |
verwendet. | |
Besonders weitverbreitet ist es allerdings in der Pornoindustrie, wo | |
exotisierende Fantasien über „Araberinnen“ bedient werden sollen. Wie | |
AlgorithmWatch herausfand, kommt der Begriff in den Textkorpora des | |
umfangreichen Datensets ParaCrawl in insgesamt 228 Sätzen vor – 222 davon | |
stammen offenbar von Porno-Websites. Die Maschine lernt also Begriffe in | |
einem Kontext kolonialer, sexistisch-rassistischer Narrative. | |
## Die Datengrundlage | |
Doch an genau diesem Kontext orientiert sich das Programm, wenn es seine | |
Worte und Kombinationen wählt. Ein Ansatz, den Gender Bias zu reduzieren, | |
ist daher Forscher:innen zufolge, die Kategorie Gender als Metadaten ins | |
System mit einzuspeisen. | |
Für eine Studie wurden dafür Sätze in einer großen Textdatenbank durch das | |
jeweilige Geschlecht der Sprechenden ergänzt, was für einige Sprachenpaare | |
zu akkurateren Übersetzungen führte. Auch andere technische Lösungen sind | |
denkbar, etwa eine Duplizierung von Sätzen: Hier werden in den Textdaten | |
zum Beispiel männlich konnotierte Sätze durch den jeweils gleichen Satz in | |
weiblicher Form ergänzt, um die Verzerrung hin zum männlichen Geschlecht | |
auszugleichen. Und nicht zuletzt kommt es auch auf die Auswahl der | |
Datensets selbst an: Diese sind zwar groß, aber niemand überprüft, wie | |
realistisch sie unsere Gesellschaft darstellen. Außerdem bleibt die Frage | |
offen, wie sich die Systeme für andere Geschlechtsidentitäten als männlich | |
und weiblich öffnen ließen. | |
Einige Verbesserungsmöglichkeiten werden von den Konzernen hinter den | |
Übersetzungsprogrammen bereits erprobt, etwa die Anfertigung von | |
Übersetzungen ohne die Verwendung von Brückensprachen. In einigen wenigen | |
Fällen spucken Programme bei neutralen Begriffen auch heute schon eine | |
weibliche und eine männliche Form aus. Allerdings können selbst kleinste | |
Anpassungen im Ausgangstext – etwa die Verwendung eines Artikels oder | |
Großschreibung – das Ergebnis verändern. Das macht deutlich, wie | |
fehleranfällig die Systeme aktuell noch sind. Aber sollten wir überhaupt in | |
die Abläufe eingreifen? Spiegeln die Übersetzungen nicht schlichtweg die | |
realen Verhältnisse der Welt mit all ihren Ungerechtigkeiten wider? | |
Nein, denn die genutzten Daten sind zum einen häufig veraltet, zum anderen | |
durch eine Überrepräsentation an Männlichkeit verzerrt. So entstehen neben | |
Ergebnissen, die Vorurteile potenzieren auch schlicht falsche | |
Übersetzungen. Deshalb braucht es für weitreichendere Entschärfungen des | |
Gender Bias in Übersetzungsprogrammen nicht nur Computerspezialist:innen, | |
sondern auch eine engere Zusammenarbeit mit Expert:innen aus anderen | |
Disziplinen wie den Gender Studies. Wenn Übersetzungsmaschinen als | |
vorurteilsfreie Sprachendienstleister auftreten wollen, muss die | |
männlich-weiße Norm in ihren Daten entmachtet werden. | |
19 May 2021 | |
## LINKS | |
[1] /Dokumentarfilm-Coded-Bias/!5770648 | |
[2] /Lernende-Maschinen/!5755050 | |
[3] /Rassismus-in-Algorithmen/!5693454 | |
## AUTOREN | |
Nadja Kutscher | |
## TAGS | |
Schwerpunkt Rassismus | |
Schwerpunkt Gender und Sexualitäten | |
Podcast „Vorgelesen“ | |
GNS | |
Daten | |
künstliche Intelligenz | |
Algorithmus | |
Schwerpunkt Rassismus | |
Diskriminierung | |
Datenschutz | |
künstliche Intelligenz | |
Schwerpunkt Rassismus | |
## ARTIKEL ZUM THEMA | |
KI statt Parlamentarier*nnen: Wunsch nach automatisierter Politik | |
Laut einer Studie würde eine Mehrheit Politiker*innen durch KI | |
ersetzen. Doch das wäre keine Chance, sondern eine Gefahr für Demokratie. | |
Diskriminierung in Videochats: Eine KI ist auch nur ein Mensch | |
Die Klangfilter von „Zoom“ und Co lassen Stimmen von Frauen weniger | |
ausdrucksstark erscheinen – und bewirken eine strukturelle Benachteiligung. | |
Dokumentarfilm „Coded Bias“: Einäugige Maschinen | |
Menschen können rassistisch und sexistisch sein – so wie die Algorithmen, | |
die uns das Leben erleichtern: Die Hamburger W3 zeigt die Doku „Coded | |
Bias“. | |
Lernende Maschinen: Entscheiden muss der Mensch | |
Noch kratzen Forscher:innen bei der Künstlichen Intelligenz an der | |
Oberfläche. Vieles ist bisher nur Wunsch und Utopie. | |
Facebooks Algorithmen werden geprüft: Diskriminierung im System | |
Der Internetkonzern Facebook will untersuchen, ob seine Algorithmen | |
rassistisch diskriminieren. Dabei ist längst bekannt, dass sie das tun. |