Introduction
Introduction Statistics Contact Development Disclaimer Help
# taz.de -- Stimmensimulator und Fake Voices: In den Mund gelegt
> Mit nur wenig Ausgangsmaterial lässt sich bald jede Stimme überzeugend
> nachbauen. Fake Voices könnten zu einem Problem werden.
Bild: Um nicht Opfer eines Stimmsimulators zu werfen, hilft nur: schweigen
Wenn Nitesh Saxena über die Technologie spricht, die er erforscht, kommen
die positiven Aspekte ziemlich kurz. Sie könnte Menschen, die keine Stimme
mehr haben, eine geben, das schon. Aber der Wissenschaftler von der
University of Alabama at Birmingham spricht dann doch wieder schnell von
den Gefahren, die von den Fake Voices ausgehen.
Eine kurze Aufnahme, mehr braucht es bald nicht mehr, um jede menschliche
Stimme zu generieren – und sie sagen zu lassen, was man will. Bisher waren
dazu große Mengen Daten nötig, stundenlange Sprachaufnahmen, um die
Software zu trainieren. Trotzdem habe das Ergebnis meist wie ein Roboter
geklungen, sagt Saxena. „Die aktuelle Technologien arbeiten etwas anders.“
Anstatt eine Stimme von Grund auf neu zu modellieren, interessiert sich das
System für die Unterschiede zwischen zwei Stimmen. Es wandelt dann die eine
Stimme in die andere um, übernimmt so zum Beispiel die Intonation. Das
bedeutet, dass schon mehrere kurze Sätze als Trainingsmaterial ausreichen.
Das hat auch das Interesse von Unternehmen geweckt. Das kanadische Start-up
Lyrebird zum Beispiel behauptet, ihre Digital Voice brauche nur eine Minute
Aufzeichnungen als Ausgangsmaterial. In Hörproben des Unternehmens kommen
unter anderem „Donald Trump“ und „Barack Obama“ zu Wort. Die berühmten
Politiker sind eindeutig zu erkennen und klingen besser als so mancher
Stimmimitator in der Morningshow eines Lokalradios. Doch Trump klingt
trotzdem etwas flach und „digital“, wenn sein Lyrebird-Ego über Nordkorea
spricht. Das ist besonders auffällig, wenn man sich viele Beispiele anhört.
Man kann die Software von Lyrebird auch selbst testen. Dazu muss man
mindestens eine Minute Sprachmaterial bereitstellen, also Sätze wie:
„Andreas placed the shell against his ear so he could hear the ocean“
einsprechen. Dann braucht die Software ein paar Minuten, und anschließend
kann man Sätze eintippen und sie sich dann selbst vorlesen hören. Täuschend
echt klingt allerdings anders. „Sollst du das sein?“, fragt mein Freund.
Ich höre mich wie mein angetrunkenes Roboter-Ich an.
Aber, sagt Lyrebird, je mehr Material man zur Verfügung stellt, desto
genauer wird das Ergebnis. (Mit amerikanischem Akzent soll es am besten
funktionieren.) In Zukunft, sind sich Experten sicher, werden die
Sprachgeneratoren immer besser, die Stimmen, die sie erzeugen immer
überzeugender. „Die Fähigkeiten der Menschen, sie zu erkennen, werden sich
aber nicht verbessern“, sagt Saxena.
## Nicht nur Menschen lassen sich täuschen
Schon heute sind Menschen nicht in der Lage, gute Fake Voices von echten zu
unterscheiden. Saxena und seine Kollegen und Kolleginnen haben in einer
Studie einen von ihnen programmierten Stimmengenerator getestet. Das
Ergebnis: Nicht nur Menschen lassen sich täuschen, Maschinen fällt es sogar
noch schwer, die falschen Stimmen zu erkennen. Das bedeutet: Systeme, die
eine Sprachauthentifizierung nutzen, sind anfällig für Hackerangriffe.
Gedacht waren die Fake Voices am Anfang dazu, Menschen, die durch eine
Krankheit ihre Stimme verloren hatten, diese wieder zurückzugeben. Stephen
Hawking würde dann nicht wie ein Roboter klingen, sondern wie er selbst.
Aber auch zum Beispiel Sprachassistenten könnten so menschlicher wirken.
Lyrebird schlägt vor, sich mit ihrer Software zum Beispiel Hörbücher in
einer Stimme der Wahl vorlesen zu lassen. Klingt alles relativ harmlos.
Aber was, wenn die Technologie – eventuell gekoppelt an ein gefälschtes
Video – missbraucht wird?
Mit diesem Problem muss sich auch Lyrebird auseinandersetzen. In einem
Ethik-Statement schreibt die Firma, es sei „unvermeidlich“, dass ihre
Technologie in ein paar Jahren weit verbreitet sei. Die Frage laute
deshalb, „wie man sie bestmöglich in die Welt einbringen kann, um das
Missbrauchsrisiko so weit wie möglich zu vermeiden“. Die Antwort: Indem man
bei den Menschen ein Bewusstsein für die Existenz der Technologie schaffe
und sicherstelle, dass niemand meine Stimme ohne mein Einverständnis nutzen
könne.
Die große Gefahr, sagt Saxena, bestehe darin, dass die Fake Voices dazu
genutzt werden, um Fake News zu machen. Wann taucht die erste nicht
gekennzeichnete Aufnahme auf, in der ein vermeintlicher Trump den
Nordkoreanern den Krieg erklärt? Wie viele werden darauf hereinfallen, was
werden die Folgen sein? Bisher hat eine Tonaufnahme die Diskussion darüber,
ob etwas wirklich so gesagt wurde oder nicht, beendet. Das könnte sich bald
ändern – und zwar nicht nur für Prominente, von denen es bereits reichlich
Tonmaterial gibt.
## Sprachauthentifizierung austricksen
„Momentan ist es nicht sehr schwer, von jemandem ein kurzes Stimmensample
zu bekommen“, sagt Saxena. Von vielen Menschen gibt es bereits frei
zugängliches Tonmaterial – zum Beispiel auf YouTube. Und wenn es ein
Angreifer gezielt auf jemanden abgesehen hat, könnte eine heimlich gemachte
Aufnahme schon reichen, um eine Sprachauthentifizierung zu überlisten. Auch
für Saxena stellt sich die Frage, wie viel er von sich veröffentlicht:
„Natürlich will ich, dass meine Vorlesungen online gestellt werden, damit
sie mehr Menschen erreichen. Gleichzeitig mache ich mich damit angreifbar.“
Der Wissenschaftler hält Aufklärung für das beste Mittel gegen Fake Voices.
Die Menschen müssten sich bewusst sein, dass die eigene Stimme nicht mehr
fälschungssicher sei. Sie müssten vorsichtiger sein, wenn sie Dinge online
posten, aufpassen, was und mit wem sie etwas teilen. Ein einfaches Tool,
das man herunterladen könne und das eine Aufnahme analysiere, sagt Saxena,
gebe es derzeit nicht.
Eine gute Nachricht hat Saxena immerhin: Auch wenn Menschen wohl nicht in
der Lage sind, die Fake Voices zu erkennen, Maschinen sollten zumindest
besser darin werden. Zum Beispiel, indem sie überprüfen, ob eine Stimme aus
einem Lautsprecher kommt. Auch dass sich immer mehr Menschen für das Thema
interessierten, sei hilfreich: „Denn Fake Voices werden uns alle
betreffen.“
11 Feb 2018
## AUTOREN
Anna Schughart
## TAGS
Spracherkennung
Migration
Apple
Nullen und Einsen
## ARTIKEL ZUM THEMA
Digitale Assistenten beim BAMF: Software soll Dialekte erkennen
Mit einer automatisierten Sprachanalyse will die Behörde die Herkunft von
Menschen bestimmen. Es gibt Kritik: Sie sei intransparent und
fehleranfällig.
Apples neues iPhone X: Das Sterben der Knöpfe
Beim neuen iPhone gibt's keinen „Home Button“ mehr. Entsperrt wird per
Gesichtserkennung. Eine Knopfolgie zum Abschied.
Kolumne Nullen und Einsen: Wir müssen reden
Der digitalen „Bei dem Quatsch mach ich nicht mit“-Phase entgeht niemand.
Unser Autor erlebt sie gerade – bei der Sprachsteuerung.
You are viewing proxied material from taz.de. The copyright of proxied material belongs to its original authors. Any comments or complaints in relation to proxied material should be directed to the original authors of the content concerned. Please see the disclaimer for more details.