Introduction
Introduction Statistics Contact Development Disclaimer Help
# taz.de -- Archive im Internet: Das verschwundene Web
> Im Netz hält nichts ewig: Server gehen offline, Websites werden ganz oder
> teilweise gelöscht. Internet-Archive können nur helfen, wenn
> Seitenbetreiber mitspielen.
Bild: Digitales Gedächtnis: Internet Archive.
Das Netz gilt als Medium mit besonders langem Gedächtnis. Einmal
eingestellte Inhalte seien kaum aus dem Internet zu bekommen, heißt es
gerne, vom unschönen Unifoto bis zum misslichen Blogposting. Doch das
stimmt nicht.
Zwar bieten viele Suchmaschinen die Möglichkeit, auch auf scheinbar
Gelöschtes zuzugreifen und soziale Netzwerke wie Facebook brauchen
erstaunlich lange, bis Bilder und andere Inhalte komplett getilgt sind.
Aber normaler Content, der nicht von Nutzern explizit zwischengespeichert
wurde, kann durchaus aus dem Netz entfernt werden - und das passiert
täglich.
Seiten können aus den verschiedenen Gründen aus dem Web verschwinden. Dabei
muss nicht unbedingt ein Server eine Zeit lang offline gehen oder ganz
abgeschaltet werden, weil ein Betreiber keine Lust oder kein Geld mehr hat.
Manchmal reicht es aus, dass ein Website-Besitzer schlichtweg vergisst, die
Registrierung seiner Domain zu verlängern - schon werden alte Links
ungültig und niemand gelangt mehr an altbekannte Daten, weil eine Adresse
neuen Besitzern zugewiesen wurde.
Die einfachste Form der Archivierung im Netz ist das sogenannte Caching,
bei dem Suchmaschinen beim Durchforsten des Netzes Kopien von Seiten
erfassen und diese dann mittels Links in ihren Suchergebnissen verfügbar
machen. Dabei werden meist Texte erfasst, keine Bilder; können diese nicht
mehr vom Originalort nachgeladen werden, weisen die gespeicherten Seiten an
diesen Stellen Lücken auf. Auf diese Weise wird so manches Angebot
unleserlich.
Aber auch dieses Caching erfolgt nur, wenn der Seitenbetreiber es nicht
explizit unterbindet. Festgelegt wird dies in der sogenannten
[1][robots.txt-Datei]. Dieses kleine Textfile bestimmt, was Suchroboter
(Robots) dürfen und was nicht. Die enthaltenen Vorgaben werden von den
meisten Suchmaschinenbetreibern ausgelesen und beachtet - Google tut das
genauso wie Bing oder Yahoo.
## Internet Archive
In der robots.txt-Datei lässt sich beispielsweise die Angabe "NOARCHIVE"
integrieren, das das Caching grundsätzlich untersagt. Der Seitenbetreiber
kann dabei festlegen, ob dies nur für bestimmte Verzeichnisse oder Seiten
oder für den gesamten Server gelten soll. So manche Nachrichtenseite setzt
mittlerweile auf "NOARCHIVE" - aus den unterschiedlichen Gründen. Manchmal
möchte ein Anbieter nicht, dass Nutzer ältere Versionen seiner
Informationen abfragen können, manchmal wird befürchtet, dass Nutzer auf
Caching-Versionen zugreifen, die dann keine bezahlte Werbung mehr
enthalten. Auch die Beschränkung der Macht Googles wird gelegentlich
angeführt.
Die Folgen können sein, dass ein restriktives "NOARCHIVE" auch große
Projekte wie das [2][Internet Archive (IA)] ausbremst, das versucht, ein
möglichst akkurates Bild der Netzentwicklung zu liefern - von den Anfängen
des Web seit 1993 bis zum heutigen Tag. Wer beispielsweise ein Caching
durch Google verhindern, die Archivierung durch das Internet Archive aber
beibehalten will, kann auch das tun: Dazu muss er in seiner robots.txt nur
den Google-Roboter aussperren, die Technik des IA aber durchlassen.
Die robots.txt-Datei bietet auch sonst einige Möglichkeiten, Daten aus dem
Netz verschwinden zu lassen. So lässt sich hier ein "NOINDEX"-Tag setzen,
das Suchmaschinen verbietet, ein Angebot überhaupt in seinen Index
aufzunehmen. Da Webserver ohne Suchmaschinenerfassung im Netz so gut wie
nicht existieren (nur Direktlinks würden die Auffindbarkeit ermöglichen),
ist auch das ein Weg, historische Inhalte im Netz zu tilgen.
## Öffentlich-rechtlicher Sonderweg
Bei den öffentlich-rechtlichen Sendern in Deutschland hat man mit dem Thema
seit dem vergangenen Jahr intensiv zu tun. Da nach dem aktuellen
Staatsvertrag viele Inhalte nur noch eine bestimmte Zeit online bleiben
dürfen, musste eine eigene "Depublizierungs-Infrastruktur" geschaffen
werden, die Inhalte löscht und, wenn möglich, auch aus Suchmaschinen tilgt.
Netzbürger, die ja mit ihren GEZ-Gebühren für die Inhalte bezahlt hatten,
möchten da nicht mitspielen. Projekte wie [3][Depub.org] versuchen sich
deshalb mit einer Gegenstrategie: Sie archivieren einfach selbst - trotz
potenzieller Urheberrechtsverletzungen.
5 Apr 2011
## LINKS
[1] http://www.robotstxt.org/
[2] http://www.archive.org
[3] http://www.heise.de/newsticker/meldung/depub-org-gesperrt-Update-1104985.ht…
## AUTOREN
Ben Schwan
## ARTIKEL ZUM THEMA
Kooperation mit Microsoft: Facebook sucht mit
Microsoft ist Großinvestor bei Facebook. Deswegen kann die Software-Firma
den "Like"-Knopf in die Suchmaschine Bing einbauen. Und sie darf noch mehr.
Yahoo und Delicious: Resteverwertung bei Yahoo
Einst kaufte das US-Portal Yahoo viele populäre Webdienste, mittlerweile
konzentriert sich das Unternehmen aufs Kerngeschäft. Doch mancher Dienst
überlebt.
Video der Woche: Aus alt mach lustig
Das ZDF übt sich in Selbstironie: Einige der muffigsten Sendungen werden
persifliert - in kurzen Mash-Up-Clips aus altem Bildmaterial. Das ist zum
Teil erstaunlich witzig.
You are viewing proxied material from taz.de. The copyright of proxied material belongs to its original authors. Any comments or complaints in relation to proxied material should be directed to the original authors of the content concerned. Please see the disclaimer for more details.