# taz.de -- Stimmensimulator und Fake Voices: In den Mund gelegt | |
> Mit nur wenig Ausgangsmaterial lässt sich bald jede Stimme überzeugend | |
> nachbauen. Fake Voices könnten zu einem Problem werden. | |
Bild: Um nicht Opfer eines Stimmsimulators zu werfen, hilft nur: schweigen | |
Wenn Nitesh Saxena über die Technologie spricht, die er erforscht, kommen | |
die positiven Aspekte ziemlich kurz. Sie könnte Menschen, die keine Stimme | |
mehr haben, eine geben, das schon. Aber der Wissenschaftler von der | |
University of Alabama at Birmingham spricht dann doch wieder schnell von | |
den Gefahren, die von den Fake Voices ausgehen. | |
Eine kurze Aufnahme, mehr braucht es bald nicht mehr, um jede menschliche | |
Stimme zu generieren – und sie sagen zu lassen, was man will. Bisher waren | |
dazu große Mengen Daten nötig, stundenlange Sprachaufnahmen, um die | |
Software zu trainieren. Trotzdem habe das Ergebnis meist wie ein Roboter | |
geklungen, sagt Saxena. „Die aktuelle Technologien arbeiten etwas anders.“ | |
Anstatt eine Stimme von Grund auf neu zu modellieren, interessiert sich das | |
System für die Unterschiede zwischen zwei Stimmen. Es wandelt dann die eine | |
Stimme in die andere um, übernimmt so zum Beispiel die Intonation. Das | |
bedeutet, dass schon mehrere kurze Sätze als Trainingsmaterial ausreichen. | |
Das hat auch das Interesse von Unternehmen geweckt. Das kanadische Start-up | |
Lyrebird zum Beispiel behauptet, ihre Digital Voice brauche nur eine Minute | |
Aufzeichnungen als Ausgangsmaterial. In Hörproben des Unternehmens kommen | |
unter anderem „Donald Trump“ und „Barack Obama“ zu Wort. Die berühmten | |
Politiker sind eindeutig zu erkennen und klingen besser als so mancher | |
Stimmimitator in der Morningshow eines Lokalradios. Doch Trump klingt | |
trotzdem etwas flach und „digital“, wenn sein Lyrebird-Ego über Nordkorea | |
spricht. Das ist besonders auffällig, wenn man sich viele Beispiele anhört. | |
Man kann die Software von Lyrebird auch selbst testen. Dazu muss man | |
mindestens eine Minute Sprachmaterial bereitstellen, also Sätze wie: | |
„Andreas placed the shell against his ear so he could hear the ocean“ | |
einsprechen. Dann braucht die Software ein paar Minuten, und anschließend | |
kann man Sätze eintippen und sie sich dann selbst vorlesen hören. Täuschend | |
echt klingt allerdings anders. „Sollst du das sein?“, fragt mein Freund. | |
Ich höre mich wie mein angetrunkenes Roboter-Ich an. | |
Aber, sagt Lyrebird, je mehr Material man zur Verfügung stellt, desto | |
genauer wird das Ergebnis. (Mit amerikanischem Akzent soll es am besten | |
funktionieren.) In Zukunft, sind sich Experten sicher, werden die | |
Sprachgeneratoren immer besser, die Stimmen, die sie erzeugen immer | |
überzeugender. „Die Fähigkeiten der Menschen, sie zu erkennen, werden sich | |
aber nicht verbessern“, sagt Saxena. | |
## Nicht nur Menschen lassen sich täuschen | |
Schon heute sind Menschen nicht in der Lage, gute Fake Voices von echten zu | |
unterscheiden. Saxena und seine Kollegen und Kolleginnen haben in einer | |
Studie einen von ihnen programmierten Stimmengenerator getestet. Das | |
Ergebnis: Nicht nur Menschen lassen sich täuschen, Maschinen fällt es sogar | |
noch schwer, die falschen Stimmen zu erkennen. Das bedeutet: Systeme, die | |
eine Sprachauthentifizierung nutzen, sind anfällig für Hackerangriffe. | |
Gedacht waren die Fake Voices am Anfang dazu, Menschen, die durch eine | |
Krankheit ihre Stimme verloren hatten, diese wieder zurückzugeben. Stephen | |
Hawking würde dann nicht wie ein Roboter klingen, sondern wie er selbst. | |
Aber auch zum Beispiel Sprachassistenten könnten so menschlicher wirken. | |
Lyrebird schlägt vor, sich mit ihrer Software zum Beispiel Hörbücher in | |
einer Stimme der Wahl vorlesen zu lassen. Klingt alles relativ harmlos. | |
Aber was, wenn die Technologie – eventuell gekoppelt an ein gefälschtes | |
Video – missbraucht wird? | |
Mit diesem Problem muss sich auch Lyrebird auseinandersetzen. In einem | |
Ethik-Statement schreibt die Firma, es sei „unvermeidlich“, dass ihre | |
Technologie in ein paar Jahren weit verbreitet sei. Die Frage laute | |
deshalb, „wie man sie bestmöglich in die Welt einbringen kann, um das | |
Missbrauchsrisiko so weit wie möglich zu vermeiden“. Die Antwort: Indem man | |
bei den Menschen ein Bewusstsein für die Existenz der Technologie schaffe | |
und sicherstelle, dass niemand meine Stimme ohne mein Einverständnis nutzen | |
könne. | |
Die große Gefahr, sagt Saxena, bestehe darin, dass die Fake Voices dazu | |
genutzt werden, um Fake News zu machen. Wann taucht die erste nicht | |
gekennzeichnete Aufnahme auf, in der ein vermeintlicher Trump den | |
Nordkoreanern den Krieg erklärt? Wie viele werden darauf hereinfallen, was | |
werden die Folgen sein? Bisher hat eine Tonaufnahme die Diskussion darüber, | |
ob etwas wirklich so gesagt wurde oder nicht, beendet. Das könnte sich bald | |
ändern – und zwar nicht nur für Prominente, von denen es bereits reichlich | |
Tonmaterial gibt. | |
## Sprachauthentifizierung austricksen | |
„Momentan ist es nicht sehr schwer, von jemandem ein kurzes Stimmensample | |
zu bekommen“, sagt Saxena. Von vielen Menschen gibt es bereits frei | |
zugängliches Tonmaterial – zum Beispiel auf YouTube. Und wenn es ein | |
Angreifer gezielt auf jemanden abgesehen hat, könnte eine heimlich gemachte | |
Aufnahme schon reichen, um eine Sprachauthentifizierung zu überlisten. Auch | |
für Saxena stellt sich die Frage, wie viel er von sich veröffentlicht: | |
„Natürlich will ich, dass meine Vorlesungen online gestellt werden, damit | |
sie mehr Menschen erreichen. Gleichzeitig mache ich mich damit angreifbar.“ | |
Der Wissenschaftler hält Aufklärung für das beste Mittel gegen Fake Voices. | |
Die Menschen müssten sich bewusst sein, dass die eigene Stimme nicht mehr | |
fälschungssicher sei. Sie müssten vorsichtiger sein, wenn sie Dinge online | |
posten, aufpassen, was und mit wem sie etwas teilen. Ein einfaches Tool, | |
das man herunterladen könne und das eine Aufnahme analysiere, sagt Saxena, | |
gebe es derzeit nicht. | |
Eine gute Nachricht hat Saxena immerhin: Auch wenn Menschen wohl nicht in | |
der Lage sind, die Fake Voices zu erkennen, Maschinen sollten zumindest | |
besser darin werden. Zum Beispiel, indem sie überprüfen, ob eine Stimme aus | |
einem Lautsprecher kommt. Auch dass sich immer mehr Menschen für das Thema | |
interessierten, sei hilfreich: „Denn Fake Voices werden uns alle | |
betreffen.“ | |
11 Feb 2018 | |
## AUTOREN | |
Anna Schughart | |
## TAGS | |
Spracherkennung | |
Migration | |
Apple | |
Nullen und Einsen | |
## ARTIKEL ZUM THEMA | |
Digitale Assistenten beim BAMF: Software soll Dialekte erkennen | |
Mit einer automatisierten Sprachanalyse will die Behörde die Herkunft von | |
Menschen bestimmen. Es gibt Kritik: Sie sei intransparent und | |
fehleranfällig. | |
Apples neues iPhone X: Das Sterben der Knöpfe | |
Beim neuen iPhone gibt's keinen „Home Button“ mehr. Entsperrt wird per | |
Gesichtserkennung. Eine Knopfolgie zum Abschied. | |
Kolumne Nullen und Einsen: Wir müssen reden | |
Der digitalen „Bei dem Quatsch mach ich nicht mit“-Phase entgeht niemand. | |
Unser Autor erlebt sie gerade – bei der Sprachsteuerung. |