| # taz.de -- Stimmensimulator und Fake Voices: In den Mund gelegt | |
| > Mit nur wenig Ausgangsmaterial lässt sich bald jede Stimme überzeugend | |
| > nachbauen. Fake Voices könnten zu einem Problem werden. | |
| Bild: Um nicht Opfer eines Stimmsimulators zu werfen, hilft nur: schweigen | |
| Wenn Nitesh Saxena über die Technologie spricht, die er erforscht, kommen | |
| die positiven Aspekte ziemlich kurz. Sie könnte Menschen, die keine Stimme | |
| mehr haben, eine geben, das schon. Aber der Wissenschaftler von der | |
| University of Alabama at Birmingham spricht dann doch wieder schnell von | |
| den Gefahren, die von den Fake Voices ausgehen. | |
| Eine kurze Aufnahme, mehr braucht es bald nicht mehr, um jede menschliche | |
| Stimme zu generieren – und sie sagen zu lassen, was man will. Bisher waren | |
| dazu große Mengen Daten nötig, stundenlange Sprachaufnahmen, um die | |
| Software zu trainieren. Trotzdem habe das Ergebnis meist wie ein Roboter | |
| geklungen, sagt Saxena. „Die aktuelle Technologien arbeiten etwas anders.“ | |
| Anstatt eine Stimme von Grund auf neu zu modellieren, interessiert sich das | |
| System für die Unterschiede zwischen zwei Stimmen. Es wandelt dann die eine | |
| Stimme in die andere um, übernimmt so zum Beispiel die Intonation. Das | |
| bedeutet, dass schon mehrere kurze Sätze als Trainingsmaterial ausreichen. | |
| Das hat auch das Interesse von Unternehmen geweckt. Das kanadische Start-up | |
| Lyrebird zum Beispiel behauptet, ihre Digital Voice brauche nur eine Minute | |
| Aufzeichnungen als Ausgangsmaterial. In Hörproben des Unternehmens kommen | |
| unter anderem „Donald Trump“ und „Barack Obama“ zu Wort. Die berühmten | |
| Politiker sind eindeutig zu erkennen und klingen besser als so mancher | |
| Stimmimitator in der Morningshow eines Lokalradios. Doch Trump klingt | |
| trotzdem etwas flach und „digital“, wenn sein Lyrebird-Ego über Nordkorea | |
| spricht. Das ist besonders auffällig, wenn man sich viele Beispiele anhört. | |
| Man kann die Software von Lyrebird auch selbst testen. Dazu muss man | |
| mindestens eine Minute Sprachmaterial bereitstellen, also Sätze wie: | |
| „Andreas placed the shell against his ear so he could hear the ocean“ | |
| einsprechen. Dann braucht die Software ein paar Minuten, und anschließend | |
| kann man Sätze eintippen und sie sich dann selbst vorlesen hören. Täuschend | |
| echt klingt allerdings anders. „Sollst du das sein?“, fragt mein Freund. | |
| Ich höre mich wie mein angetrunkenes Roboter-Ich an. | |
| Aber, sagt Lyrebird, je mehr Material man zur Verfügung stellt, desto | |
| genauer wird das Ergebnis. (Mit amerikanischem Akzent soll es am besten | |
| funktionieren.) In Zukunft, sind sich Experten sicher, werden die | |
| Sprachgeneratoren immer besser, die Stimmen, die sie erzeugen immer | |
| überzeugender. „Die Fähigkeiten der Menschen, sie zu erkennen, werden sich | |
| aber nicht verbessern“, sagt Saxena. | |
| ## Nicht nur Menschen lassen sich täuschen | |
| Schon heute sind Menschen nicht in der Lage, gute Fake Voices von echten zu | |
| unterscheiden. Saxena und seine Kollegen und Kolleginnen haben in einer | |
| Studie einen von ihnen programmierten Stimmengenerator getestet. Das | |
| Ergebnis: Nicht nur Menschen lassen sich täuschen, Maschinen fällt es sogar | |
| noch schwer, die falschen Stimmen zu erkennen. Das bedeutet: Systeme, die | |
| eine Sprachauthentifizierung nutzen, sind anfällig für Hackerangriffe. | |
| Gedacht waren die Fake Voices am Anfang dazu, Menschen, die durch eine | |
| Krankheit ihre Stimme verloren hatten, diese wieder zurückzugeben. Stephen | |
| Hawking würde dann nicht wie ein Roboter klingen, sondern wie er selbst. | |
| Aber auch zum Beispiel Sprachassistenten könnten so menschlicher wirken. | |
| Lyrebird schlägt vor, sich mit ihrer Software zum Beispiel Hörbücher in | |
| einer Stimme der Wahl vorlesen zu lassen. Klingt alles relativ harmlos. | |
| Aber was, wenn die Technologie – eventuell gekoppelt an ein gefälschtes | |
| Video – missbraucht wird? | |
| Mit diesem Problem muss sich auch Lyrebird auseinandersetzen. In einem | |
| Ethik-Statement schreibt die Firma, es sei „unvermeidlich“, dass ihre | |
| Technologie in ein paar Jahren weit verbreitet sei. Die Frage laute | |
| deshalb, „wie man sie bestmöglich in die Welt einbringen kann, um das | |
| Missbrauchsrisiko so weit wie möglich zu vermeiden“. Die Antwort: Indem man | |
| bei den Menschen ein Bewusstsein für die Existenz der Technologie schaffe | |
| und sicherstelle, dass niemand meine Stimme ohne mein Einverständnis nutzen | |
| könne. | |
| Die große Gefahr, sagt Saxena, bestehe darin, dass die Fake Voices dazu | |
| genutzt werden, um Fake News zu machen. Wann taucht die erste nicht | |
| gekennzeichnete Aufnahme auf, in der ein vermeintlicher Trump den | |
| Nordkoreanern den Krieg erklärt? Wie viele werden darauf hereinfallen, was | |
| werden die Folgen sein? Bisher hat eine Tonaufnahme die Diskussion darüber, | |
| ob etwas wirklich so gesagt wurde oder nicht, beendet. Das könnte sich bald | |
| ändern – und zwar nicht nur für Prominente, von denen es bereits reichlich | |
| Tonmaterial gibt. | |
| ## Sprachauthentifizierung austricksen | |
| „Momentan ist es nicht sehr schwer, von jemandem ein kurzes Stimmensample | |
| zu bekommen“, sagt Saxena. Von vielen Menschen gibt es bereits frei | |
| zugängliches Tonmaterial – zum Beispiel auf YouTube. Und wenn es ein | |
| Angreifer gezielt auf jemanden abgesehen hat, könnte eine heimlich gemachte | |
| Aufnahme schon reichen, um eine Sprachauthentifizierung zu überlisten. Auch | |
| für Saxena stellt sich die Frage, wie viel er von sich veröffentlicht: | |
| „Natürlich will ich, dass meine Vorlesungen online gestellt werden, damit | |
| sie mehr Menschen erreichen. Gleichzeitig mache ich mich damit angreifbar.“ | |
| Der Wissenschaftler hält Aufklärung für das beste Mittel gegen Fake Voices. | |
| Die Menschen müssten sich bewusst sein, dass die eigene Stimme nicht mehr | |
| fälschungssicher sei. Sie müssten vorsichtiger sein, wenn sie Dinge online | |
| posten, aufpassen, was und mit wem sie etwas teilen. Ein einfaches Tool, | |
| das man herunterladen könne und das eine Aufnahme analysiere, sagt Saxena, | |
| gebe es derzeit nicht. | |
| Eine gute Nachricht hat Saxena immerhin: Auch wenn Menschen wohl nicht in | |
| der Lage sind, die Fake Voices zu erkennen, Maschinen sollten zumindest | |
| besser darin werden. Zum Beispiel, indem sie überprüfen, ob eine Stimme aus | |
| einem Lautsprecher kommt. Auch dass sich immer mehr Menschen für das Thema | |
| interessierten, sei hilfreich: „Denn Fake Voices werden uns alle | |
| betreffen.“ | |
| 11 Feb 2018 | |
| ## AUTOREN | |
| Anna Schughart | |
| ## TAGS | |
| Spracherkennung | |
| Migration | |
| Apple | |
| Nullen und Einsen | |
| ## ARTIKEL ZUM THEMA | |
| Digitale Assistenten beim BAMF: Software soll Dialekte erkennen | |
| Mit einer automatisierten Sprachanalyse will die Behörde die Herkunft von | |
| Menschen bestimmen. Es gibt Kritik: Sie sei intransparent und | |
| fehleranfällig. | |
| Apples neues iPhone X: Das Sterben der Knöpfe | |
| Beim neuen iPhone gibt's keinen „Home Button“ mehr. Entsperrt wird per | |
| Gesichtserkennung. Eine Knopfolgie zum Abschied. | |
| Kolumne Nullen und Einsen: Wir müssen reden | |
| Der digitalen „Bei dem Quatsch mach ich nicht mit“-Phase entgeht niemand. | |
| Unser Autor erlebt sie gerade – bei der Sprachsteuerung. |