# taz.de -- Archive im Internet: Das verschwundene Web | |
> Im Netz hält nichts ewig: Server gehen offline, Websites werden ganz oder | |
> teilweise gelöscht. Internet-Archive können nur helfen, wenn | |
> Seitenbetreiber mitspielen. | |
Bild: Digitales Gedächtnis: Internet Archive. | |
Das Netz gilt als Medium mit besonders langem Gedächtnis. Einmal | |
eingestellte Inhalte seien kaum aus dem Internet zu bekommen, heißt es | |
gerne, vom unschönen Unifoto bis zum misslichen Blogposting. Doch das | |
stimmt nicht. | |
Zwar bieten viele Suchmaschinen die Möglichkeit, auch auf scheinbar | |
Gelöschtes zuzugreifen und soziale Netzwerke wie Facebook brauchen | |
erstaunlich lange, bis Bilder und andere Inhalte komplett getilgt sind. | |
Aber normaler Content, der nicht von Nutzern explizit zwischengespeichert | |
wurde, kann durchaus aus dem Netz entfernt werden - und das passiert | |
täglich. | |
Seiten können aus den verschiedenen Gründen aus dem Web verschwinden. Dabei | |
muss nicht unbedingt ein Server eine Zeit lang offline gehen oder ganz | |
abgeschaltet werden, weil ein Betreiber keine Lust oder kein Geld mehr hat. | |
Manchmal reicht es aus, dass ein Website-Besitzer schlichtweg vergisst, die | |
Registrierung seiner Domain zu verlängern - schon werden alte Links | |
ungültig und niemand gelangt mehr an altbekannte Daten, weil eine Adresse | |
neuen Besitzern zugewiesen wurde. | |
Die einfachste Form der Archivierung im Netz ist das sogenannte Caching, | |
bei dem Suchmaschinen beim Durchforsten des Netzes Kopien von Seiten | |
erfassen und diese dann mittels Links in ihren Suchergebnissen verfügbar | |
machen. Dabei werden meist Texte erfasst, keine Bilder; können diese nicht | |
mehr vom Originalort nachgeladen werden, weisen die gespeicherten Seiten an | |
diesen Stellen Lücken auf. Auf diese Weise wird so manches Angebot | |
unleserlich. | |
Aber auch dieses Caching erfolgt nur, wenn der Seitenbetreiber es nicht | |
explizit unterbindet. Festgelegt wird dies in der sogenannten | |
[1][robots.txt-Datei]. Dieses kleine Textfile bestimmt, was Suchroboter | |
(Robots) dürfen und was nicht. Die enthaltenen Vorgaben werden von den | |
meisten Suchmaschinenbetreibern ausgelesen und beachtet - Google tut das | |
genauso wie Bing oder Yahoo. | |
## Internet Archive | |
In der robots.txt-Datei lässt sich beispielsweise die Angabe "NOARCHIVE" | |
integrieren, das das Caching grundsätzlich untersagt. Der Seitenbetreiber | |
kann dabei festlegen, ob dies nur für bestimmte Verzeichnisse oder Seiten | |
oder für den gesamten Server gelten soll. So manche Nachrichtenseite setzt | |
mittlerweile auf "NOARCHIVE" - aus den unterschiedlichen Gründen. Manchmal | |
möchte ein Anbieter nicht, dass Nutzer ältere Versionen seiner | |
Informationen abfragen können, manchmal wird befürchtet, dass Nutzer auf | |
Caching-Versionen zugreifen, die dann keine bezahlte Werbung mehr | |
enthalten. Auch die Beschränkung der Macht Googles wird gelegentlich | |
angeführt. | |
Die Folgen können sein, dass ein restriktives "NOARCHIVE" auch große | |
Projekte wie das [2][Internet Archive (IA)] ausbremst, das versucht, ein | |
möglichst akkurates Bild der Netzentwicklung zu liefern - von den Anfängen | |
des Web seit 1993 bis zum heutigen Tag. Wer beispielsweise ein Caching | |
durch Google verhindern, die Archivierung durch das Internet Archive aber | |
beibehalten will, kann auch das tun: Dazu muss er in seiner robots.txt nur | |
den Google-Roboter aussperren, die Technik des IA aber durchlassen. | |
Die robots.txt-Datei bietet auch sonst einige Möglichkeiten, Daten aus dem | |
Netz verschwinden zu lassen. So lässt sich hier ein "NOINDEX"-Tag setzen, | |
das Suchmaschinen verbietet, ein Angebot überhaupt in seinen Index | |
aufzunehmen. Da Webserver ohne Suchmaschinenerfassung im Netz so gut wie | |
nicht existieren (nur Direktlinks würden die Auffindbarkeit ermöglichen), | |
ist auch das ein Weg, historische Inhalte im Netz zu tilgen. | |
## Öffentlich-rechtlicher Sonderweg | |
Bei den öffentlich-rechtlichen Sendern in Deutschland hat man mit dem Thema | |
seit dem vergangenen Jahr intensiv zu tun. Da nach dem aktuellen | |
Staatsvertrag viele Inhalte nur noch eine bestimmte Zeit online bleiben | |
dürfen, musste eine eigene "Depublizierungs-Infrastruktur" geschaffen | |
werden, die Inhalte löscht und, wenn möglich, auch aus Suchmaschinen tilgt. | |
Netzbürger, die ja mit ihren GEZ-Gebühren für die Inhalte bezahlt hatten, | |
möchten da nicht mitspielen. Projekte wie [3][Depub.org] versuchen sich | |
deshalb mit einer Gegenstrategie: Sie archivieren einfach selbst - trotz | |
potenzieller Urheberrechtsverletzungen. | |
5 Apr 2011 | |
## LINKS | |
[1] http://www.robotstxt.org/ | |
[2] http://www.archive.org | |
[3] http://www.heise.de/newsticker/meldung/depub-org-gesperrt-Update-1104985.ht… | |
## AUTOREN | |
Ben Schwan | |
## ARTIKEL ZUM THEMA | |
Kooperation mit Microsoft: Facebook sucht mit | |
Microsoft ist Großinvestor bei Facebook. Deswegen kann die Software-Firma | |
den "Like"-Knopf in die Suchmaschine Bing einbauen. Und sie darf noch mehr. | |
Yahoo und Delicious: Resteverwertung bei Yahoo | |
Einst kaufte das US-Portal Yahoo viele populäre Webdienste, mittlerweile | |
konzentriert sich das Unternehmen aufs Kerngeschäft. Doch mancher Dienst | |
überlebt. | |
Video der Woche: Aus alt mach lustig | |
Das ZDF übt sich in Selbstironie: Einige der muffigsten Sendungen werden | |
persifliert - in kurzen Mash-Up-Clips aus altem Bildmaterial. Das ist zum | |
Teil erstaunlich witzig. |