# taz.de -- Übersetzungen im Netz: Google im "conversation mode" | |
> Googles Angebot für Übersetzungen ist jetzt kostenpflichtig. Wie | |
> funktioniert die maschinelle Übersetzung und gehört ihr wirklich die | |
> Zukunft? | |
Bild: Kommunikation: Entscheidend ist, was auf der anderen Seite ankommt. | |
BERLIN taz | Von weltweiter Reichweite mag das World Wide Web ja sein, doch | |
weltumfassend wird es so lange nicht sein, wie die Sprachbarrieren nicht | |
eingerissen sind. Google arbeitet schon seit längerem daran, dass | |
Übersetzungen einfacher werden. Ein neues, kostenpflichtiges Angebot soll | |
die bisherigen eher hilflosen Versuche ergänzen. | |
Bis zur Lösung dieses Dilemmas stellen sich zwei Probleme: Einerseits das | |
Problem der verschiedenen Sprachen, die Übersetzungen nötig machen, um eine | |
direkte Kommunikation zu vereinfachen. Und zweitens das Problem der | |
Übersetzungen selbst, die Ressourcen binden. Allein der Übersetzungsdienst | |
der EU in Brüssel hat 2.500 Mitarbeiter. | |
Es gab und gibt Linguisten, die diese beiden Probleme automatisch lösen | |
wollen. Seit Mitte der 60er, als Noam Chomsky seine generative | |
Grammatiktheorie entwickelte, hoffen Computerlinguisten auf den Durchbruch. | |
Der lässt aber auf sich warten: Denn die Sprache ist viel komplexer, als | |
man damals gedacht hatte. | |
## Texte in Trigrammen | |
Es gibt zwei Sorten automatisierter Übersetzung. Die eine versucht, den | |
Arbeitsablauf eines Menschen nachzuempfinden. Sie entschlüsselt die Syntax, | |
sie schlägt Worte in Lexika nach und so weiter. Klingt schlüssig, | |
funktioniert aber nicht sehr gut. Die Vielzahl von einander | |
widersprechenden Regeln hat Wissenschaftler zu der Annahme kommen lassen, | |
dass man Sprache nicht begreifen kann, ohne die menschliche Intelligenz | |
vollständig zu begreifen. | |
Die zweite Methode versucht, das Problem zu umgehen, indem sie statistisch | |
arbeitet. Dazu braucht man einen Pool von Texten. Google zum Beispiel hat | |
Zugriff auf Milliarden von Texten. Daraus generiert das Unternehmen | |
Statistiken. Alle Texte werden in Trigramme zerlegt, das sind | |
Drei-Wort-Kombinationen. Die Variationsmöglichkeiten sind immens, [1][wie | |
man hier sehen kann,] aber nicht unendlich. Die Ergebnisse werden | |
quantifiziert, und dank dieser Daten macht sich Google ein recht gutes Bild | |
davon, wie sich die Menschen in einer bestimmten Sprache verständigen. | |
Gleichzeitig nutzt Google fertige Übersetzungen, die zum Teil von | |
Spezialisten angefertigt wurden. Diese Übersetzungen sind keine | |
Auftragsarbeiten, sondern verwenden schlicht bereits übersetzte Seiten – | |
gleichgültig ob von EU-Spezialisten oder von Automaten. | |
Google durchsucht diese Texte und stellt einen Abgleich her. Wenn das Wort | |
Auto in einem deutschen Text verwendet wird, findet man das Wort car in der | |
englischen Version. Das funktioniert im Prinzip auch für komplizierte | |
Vokabeln. Und je mehr Daten zum Abgleich zur Verfügung stehen, desto besser | |
wird die Übersetzung. | |
## SEO-Spammer | |
Google hat daraus einen kostenlosen Dienst entwickelt: Google Translate. | |
Dieser Dienst soll weiterexistieren. Gleichzeitig gibt es für eine | |
automatisierte Anwendung, die es erlaubt, nicht nur Textausschnitte, | |
sondern eine komplette Seite zu übersetzen. Google kam dabei zu | |
beeindruckenden Ergebnissen. Und weil diese Methode billiger ist als die | |
traditionelle, gehört ihr die Zukunft. Dachte man. | |
Aber diesen Dienst nutzten viele SEO-Spammer - Suchmaschinen-Optimierer, | |
die ihren häufig unbrauchbaren Content in jeder erdenklichen Sprache | |
anbieten wollen, um die Klickzahlen hochjubeln. Auch die Übersetzungen | |
solcher Seiten hat Google übernommen, ohne zu unterscheiden, ob es sich um | |
aufwändig von Menschen bearbeitete oder automatisierte Versionen handelt. | |
Auf diese Weise gelangten alle Fehler der automatisierten Übersetzung zu | |
Google Translate und Google verbesserte diese Fehler nicht mehr. Im | |
Endeffekt kann das bedeuten: Je häufiger Googles Übersetzungsdienst | |
verwendet wird, desto schlechter arbeitet er. Um gegenzusteuern, gestaltet | |
Google sein Angebot um und macht es kostenpflichtig: 0,05 US-Dollar pro 500 | |
Wörter. Das, so hofft die Firma, sei die Lösung des Spam-Problems. | |
## Nur noch eine Sprache? | |
Der nächste Schritt ist bereits geplant: Im Januar hat Google eine | |
Alpha-Version des "conversation mode" vorgestellt, das Gespräche übers | |
Telefon simultan übersetzt. Noch können maschinelle Übersetzungen weder | |
menschliche Übersetzer noch Dolmetscher ersetzen, und doch soll ihnen die | |
Zukunft gehören - angesichts der Geschwindigkeit, mit der sich die | |
Programme entwickeln, möglicherweise sogar die nahe Zukunft. | |
Und langfristig? Langfristig könnte sich eine einzige Sprache als | |
Weltkommunikationsmittel durchsetzen. 6.000 Sprachen gibt es momentan noch | |
auf der Welt. Linguisten gehen davon aus, dass drei Viertel das nächste | |
Jahrhundert nicht überleben. Noch immer dominiert Englisch, wenn auch | |
häufig auf der Basis des in der Luft- und Raumfahrtindustrie üblichen | |
Simplified English, einer Art künstlichem Rudimentärenglisch. | |
Es wurde gerade auch deswegen entwickelt wurde, um Übersetzungen günstiger | |
zu machen. Es sei, so hat es der englische Professor Mark Pagel einmal | |
gesagt, "unser Schicksal, eine Welt mit einer Sprache zu werden". | |
31 Aug 2011 | |
## LINKS | |
[1] http://www.chrisharrison.net/projects/trigramviz/ | |
## AUTOREN | |
Frédéric Valin | |
## ARTIKEL ZUM THEMA | |
Pannen beim Jugendschutzfilter von O2: Zensur von "prallen Melonen" | |
Der Mobilfunkanbieter O2 will etwas für einen verbesserten Jugendschutz im | |
Internet tun. Nun rutschte die Seite eines Lebensmittelherstellers durch | |
den Filter. |