# taz.de -- KI zum Klonen von Stimmen: Künstliche Stimmen, ganz natürlich

	# taz.de -- KI zum Klonen von Stimmen: Künstliche Stimmen, ganz natürlich

	> Ein Tool zum Klonen von gesprochener Sprache sorgt für Diskussionen. Der
	> Hersteller betont die Potenziale – und schreckt vor einer Freigabe
	> zurück.

	Bild: Stimmen ohne Einwilligung zu klonen ist rechtswidrig

	Der Anruf kam, als ihre 15-jährige Tochter gerade auf einer Skifreizeit
	war. Auf dem Display stand eine unbekannte Nummer, doch als sie den Anruf
	annahm, hörte Jennifer DeStefano die Stimme ihrer Tochter, die weinte und
	um Hilfe flehte, so erzählte es DeStefano dem US-Fernsehsender WKYT. Dann
	habe sich eine Männerstimme gemeldet, die ein Lösegeld forderte und drohte,
	der Tochter etwas anzutun.

	Allein: Es gab keine Entführung. Betrüger hatten mittels Software die
	Stimme der Tochter geklont. „Es war eins zu eins ihre Stimme. Es war ihr
	Tonfall. Es war genau so, wie sie geweint hätte“, sagte die Mutter. Der
	Fall, der sich zum Glück schnell aufklären ließ, liegt bereits ein knappes
	Jahr zurück, doch er bekommt neue Aktualität durch die jüngste
	Veröffentlichung aus dem Hause des US-Unternehmens OpenAI. Die auf den
	Bereich Künstliche Intelligenz spezialisierte Firma stellte Ende voriger
	Woche ihr jüngstes Tool vor: Voice Engine, ein Programm, mit dem sich
	Stimmen klonen lassen – und das deutlich schneller als mit bisherigen
	Programmen.

	Künstliche Intelligenz (KI) ist eine der Technologien mit den aktuell
	größten Entwicklungssprüngen und OpenAI eines der führenden Unternehmen.
	Gestartet mit einem Non-Profit-Ansatz und der Idee, KI-Systeme zu
	entwickeln, die gut sind für die Menschheit, ist mittlerweile Microsoft
	maßgeblicher Investor und die Produkte der Firma sind durchaus umstritten.
	So auch Voice Engine. OpenAI zeigt anhand von Beispielen, dass das Programm
	auf Basis einer 15-sekündigen Audioaufnahme und einer Texteingabe eine neue
	Audiosequenz erzeugt, die den eingegebenen Text spricht und dabei vom Klang
	her sehr nah an der Sprecherstimme aus dem 15-Sekunden-Sample ist. Bislang
	waren als Basis für ein solches Klonen der Stimme in der Regel Stimmproben
	von mindestens einer Minute Länge nötig.

	OpenAI betont die positiven Möglichkeiten: So könnten etwa Menschen, die
	infolge einer Krankheit nicht mehr sprechen können, wieder mit ihrer Stimme
	zu Wort kommen. Zumindest, wenn es eine 15-sekündige Audioaufnahme von der
	Person gibt, was in Zeiten von Sprachnachrichten bei vielen Menschen der
	Fall sein dürfte. Ein anderer Bereich könnte die internationale
	Kommunikation sein. So stellte OpenAI generierte Audio-Samples in mehreren
	Sprachen von Englisch über Japanisch bis Swahili vor. Die Basis dafür ist
	auch hier die 15-sekündige Referenzaufnahme und eine Texteingabe, die von
	der KI zu Sprache verarbeitet wird. Texte lassen sich heute schon schnell
	und in meist hoher Qualität mittels KI übersetzen, zum Beispiel mit
	Anbietern wie Google Translate oder DeepL.

	Dennoch hat OpenAI das Modell nicht allgemein für die Nutzung freigegeben,
	sondern [1][lediglich die Ergebnisse vorgestellt]. „Wir sind uns darüber im
	Klaren, dass die Erzeugung von Sprache, die den Stimmen der Menschen
	ähnelt, ernsthafte Risiken birgt“, so das Unternehmen in einem
	[2][Blogbeitrag]. Man teste die Technologie derzeit „in kleinerem Maßstab“
	und werde dann über das weitere Vorgehen entscheiden. Die an den Tests
	beteiligten Partner müssten einer Reihe von Bedingungen zustimmen. Unter
	anderem dürften nur Stimmen verwendet werden, wenn die zugehörigen Personen
	einwilligten. Darüber hinaus habe das Unternehmen ein digitales
	Wasserzeichen entwickelt, was die Rückverfolgbarkeit von erstellten
	Sequenzen ermögliche.

	## Die Stimme von Nawalnys Mutter

	„Ein naheliegender Gedanke bezüglich der Gefahren, Stimmen synthetisch zu
	generieren, ist der Einsatz für Desinformation“, sagt Sami Nenno, der am
	Alexander von Humboldt Institut für Internet und Gesellschaft dazu forscht,
	der taz. Audio-Deepfakes heißen solche gefälschten Sequenzen. Ein Beispiel:
	Eine [3][vermeintliche Audio-Aufnahme] von der Mutter des verstorbenen
	russischen Oppositionellen Alexej Nawalny, in der sie schwere Vorwürfe
	gegen dessen Ehefrau erheben soll. Nenno zufolge sind solche reinen
	Audio-Deepfakes jedoch aktuell selten.

	Sein Kollege Matthias Kettemann, Professor für Innovationsrecht, stellt
	klar: Stimmen ohne Einwilligung zu klonen ist rechtswidrig. Doch dass ein
	Verbot nicht unbedingt auch eine wirksame Strafverfolgung nach sich zieht,
	zeigen jetzt schon Delikte von Identitätsdiebstahl bis Hassrede. Verbreitet
	hat sich daher die Forderung nach einer Art Wasserzeichen, um KI-generierte
	Inhalte eindeutig kenntlich zu machen, wie es auch bei Voice Engine der
	Fall sein soll. Kettemann ist skeptisch: „Jede Kennzeichnung lässt sich
	aufheben; und böswillige Akteure halten sich ohnedies nicht dran.“
	Wichtiger sei daher Bildung, bereits in der Schule. Und Umsicht: „Es ist
	klug, dass OpenAI beschlossen hat, die Stimmen-KI nicht flächendeckend
	auszuspielen – gerade in einem Superwahljahr wäre das auch
	demokratiepolitisch herausfordernd.“

	6 Apr 2024

	## LINKS

	[1] https://openai.com/blog/navigating-the-challenges-and-opportunities-of-synt…
	[2] https://help.openai.com/en/articles/9028393-how-to-access-the-voice-engine
	[3] https://correctiv.org/faktencheck/2024/03/07/russland-deepfake-alexej-nawal…

	## AUTOREN

	Svenja Bergt

	## TAGS

	Fake News
	Deepfake
	wochentaz
	Schwerpunkt Künstliche Intelligenz
	Schwerpunkt Künstliche Intelligenz
	Datenschutz
	Schwerpunkt Emmanuel Macron
	Film
	Kolumne Flimmern und Rauschen
	Schwerpunkt Flucht
	Schwerpunkt Künstliche Intelligenz
	TikTok
	Slowakei
	Schwerpunkt Künstliche Intelligenz
	Zentrum für Politische Schönheit

	## ARTIKEL ZUM THEMA

	Synchronsprecher gegen Stimmen-Kopie: Gericht stoppt KI-Stimmenklau

	Manfred Lehmann hat gegen einen Youtuber gewonnen, der seine Stimme per KI
	nachgeahmt hat. Das Urteil schützt erstmals auch „Kunststimmen“.

	Künstliche Intelligenz: Achtung bei Prophezeiungen

	Über die Zukunft der Künstlichen Intelligenz wird aktuell viel spekuliert.
	Sicher ist nur, dass niemand genau voraussagen kann, wohin die Reise geht.

	Künstliche Intelligenz: Wie viel Regulierung ist sinnvoll?

	Die Welt ringt um ihren Umgang mit KI-Technologien. Auf einem Gipfel in
	Paris, zeigte sich, wo es in Europa damit hingeht.

	Film mit KI-generiertem Putin: Best-of der bösen Taten

	Der polnische Regisseur Patryk Vega hat einen Film mit einem teilweise
	computeranimierten Putin in die Kinos gebracht. Leider muss man vor ihm
	warnen.

	Medien diskutieren Nutzung von KI: Kein Futter für Maschinen

	Von Hundeurlaub bis KI-Skandale: Warum Medien ihre Daten nicht an die KI
	verfüttern und stattdessen neue Regeln aufstellen sollten.

	Künstliche Intelligenz in Asylverfahren: Menschen sind auch nicht menschlich

	Scholz wünscht sich, dass künftig KI bei Asylverfahren hilft. Klingt
	gruselig, könnte aber auch zu schnelleren und humaneren Entscheidungen
	führen.

	Kritik an mangelnder Verbindlichkeit: Europarat nimmt KI-Konvention an

	Der Europarat will die Menschenrechte vor einem Missbrauch durch KI
	schützen. Die Organisation hofft auf eine weltweite Wirkung – doch es gibt
	Kritik.

	Künstliche Intelligenz auf Plattformen: Tiktok will KI-Inhalte kennzeichnen

	Mit einem Hinweis will die Plattform Klarheit schaffen. Auch andere
	Plattformen sollen die Kennzeichnung übernehmen können.

	Pressefreiheit in der Slowakei: Die Wunde ist nicht verheilt

	Sechs Jahre nach dem Mord am Journalisten Ján Kuciak bleibt die
	Pressefreiheit in der Slowakei prekär. Premier Fico sieht Journalisten
	als Hindernis.

	OpenAI-Mitgründer verlässt Unternehmen: Andrej Karpathy bestätigt Abgang

	Der Forscher will sich zukünftig persönlichen Projekten widmen. Erst im
	November hatte OpenAI mit der Entlassung von Sam Altman Aufsehen erregt.

	Deepfake des ZPS: Nur kein falscher Scholz

	Das Zentrum für Politische Schönheit veröffentlicht zum zweiten Mal ein
	Video, in dem Olaf Scholz eindrücklich vor der AfD warnt. Aber: Es ist
	nicht echt.