# taz.de -- Archive im Internet: Das verschwundene Web

	# taz.de -- Archive im Internet: Das verschwundene Web

	> Im Netz hält nichts ewig: Server gehen offline, Websites werden ganz oder
	> teilweise gelöscht. Internet-Archive können nur helfen, wenn
	> Seitenbetreiber mitspielen.

	Bild: Digitales Gedächtnis: Internet Archive.

	Das Netz gilt als Medium mit besonders langem Gedächtnis. Einmal
	eingestellte Inhalte seien kaum aus dem Internet zu bekommen, heißt es
	gerne, vom unschönen Unifoto bis zum misslichen Blogposting. Doch das
	stimmt nicht.

	Zwar bieten viele Suchmaschinen die Möglichkeit, auch auf scheinbar
	Gelöschtes zuzugreifen und soziale Netzwerke wie Facebook brauchen
	erstaunlich lange, bis Bilder und andere Inhalte komplett getilgt sind.
	Aber normaler Content, der nicht von Nutzern explizit zwischengespeichert
	wurde, kann durchaus aus dem Netz entfernt werden - und das passiert
	täglich.

	Seiten können aus den verschiedenen Gründen aus dem Web verschwinden. Dabei
	muss nicht unbedingt ein Server eine Zeit lang offline gehen oder ganz
	abgeschaltet werden, weil ein Betreiber keine Lust oder kein Geld mehr hat.
	Manchmal reicht es aus, dass ein Website-Besitzer schlichtweg vergisst, die
	Registrierung seiner Domain zu verlängern - schon werden alte Links
	ungültig und niemand gelangt mehr an altbekannte Daten, weil eine Adresse
	neuen Besitzern zugewiesen wurde.

	Die einfachste Form der Archivierung im Netz ist das sogenannte Caching,
	bei dem Suchmaschinen beim Durchforsten des Netzes Kopien von Seiten
	erfassen und diese dann mittels Links in ihren Suchergebnissen verfügbar
	machen. Dabei werden meist Texte erfasst, keine Bilder; können diese nicht
	mehr vom Originalort nachgeladen werden, weisen die gespeicherten Seiten an
	diesen Stellen Lücken auf. Auf diese Weise wird so manches Angebot
	unleserlich.

	Aber auch dieses Caching erfolgt nur, wenn der Seitenbetreiber es nicht
	explizit unterbindet. Festgelegt wird dies in der sogenannten
	[1][robots.txt-Datei]. Dieses kleine Textfile bestimmt, was Suchroboter
	(Robots) dürfen und was nicht. Die enthaltenen Vorgaben werden von den
	meisten Suchmaschinenbetreibern ausgelesen und beachtet - Google tut das
	genauso wie Bing oder Yahoo.

	## Internet Archive

	In der robots.txt-Datei lässt sich beispielsweise die Angabe "NOARCHIVE"
	integrieren, das das Caching grundsätzlich untersagt. Der Seitenbetreiber
	kann dabei festlegen, ob dies nur für bestimmte Verzeichnisse oder Seiten
	oder für den gesamten Server gelten soll. So manche Nachrichtenseite setzt
	mittlerweile auf "NOARCHIVE" - aus den unterschiedlichen Gründen. Manchmal
	möchte ein Anbieter nicht, dass Nutzer ältere Versionen seiner
	Informationen abfragen können, manchmal wird befürchtet, dass Nutzer auf
	Caching-Versionen zugreifen, die dann keine bezahlte Werbung mehr
	enthalten. Auch die Beschränkung der Macht Googles wird gelegentlich
	angeführt.

	Die Folgen können sein, dass ein restriktives "NOARCHIVE" auch große
	Projekte wie das [2][Internet Archive (IA)] ausbremst, das versucht, ein
	möglichst akkurates Bild der Netzentwicklung zu liefern - von den Anfängen
	des Web seit 1993 bis zum heutigen Tag. Wer beispielsweise ein Caching
	durch Google verhindern, die Archivierung durch das Internet Archive aber
	beibehalten will, kann auch das tun: Dazu muss er in seiner robots.txt nur
	den Google-Roboter aussperren, die Technik des IA aber durchlassen.

	Die robots.txt-Datei bietet auch sonst einige Möglichkeiten, Daten aus dem
	Netz verschwinden zu lassen. So lässt sich hier ein "NOINDEX"-Tag setzen,
	das Suchmaschinen verbietet, ein Angebot überhaupt in seinen Index
	aufzunehmen. Da Webserver ohne Suchmaschinenerfassung im Netz so gut wie
	nicht existieren (nur Direktlinks würden die Auffindbarkeit ermöglichen),
	ist auch das ein Weg, historische Inhalte im Netz zu tilgen.

	## Öffentlich-rechtlicher Sonderweg

	Bei den öffentlich-rechtlichen Sendern in Deutschland hat man mit dem Thema
	seit dem vergangenen Jahr intensiv zu tun. Da nach dem aktuellen
	Staatsvertrag viele Inhalte nur noch eine bestimmte Zeit online bleiben
	dürfen, musste eine eigene "Depublizierungs-Infrastruktur" geschaffen
	werden, die Inhalte löscht und, wenn möglich, auch aus Suchmaschinen tilgt.

	Netzbürger, die ja mit ihren GEZ-Gebühren für die Inhalte bezahlt hatten,
	möchten da nicht mitspielen. Projekte wie [3][Depub.org] versuchen sich
	deshalb mit einer Gegenstrategie: Sie archivieren einfach selbst - trotz
	potenzieller Urheberrechtsverletzungen.

	5 Apr 2011

	## LINKS

	[1] http://www.robotstxt.org/
	[2] http://www.archive.org
	[3] http://www.heise.de/newsticker/meldung/depub-org-gesperrt-Update-1104985.ht…

	## AUTOREN

	Ben Schwan

	## ARTIKEL ZUM THEMA

	Kooperation mit Microsoft: Facebook sucht mit

	Microsoft ist Großinvestor bei Facebook. Deswegen kann die Software-Firma
	den "Like"-Knopf in die Suchmaschine Bing einbauen. Und sie darf noch mehr.

	Yahoo und Delicious: Resteverwertung bei Yahoo

	Einst kaufte das US-Portal Yahoo viele populäre Webdienste, mittlerweile
	konzentriert sich das Unternehmen aufs Kerngeschäft. Doch mancher Dienst
	überlebt.

	Video der Woche: Aus alt mach lustig

	Das ZDF übt sich in Selbstironie: Einige der muffigsten Sendungen werden
	persifliert - in kurzen Mash-Up-Clips aus altem Bildmaterial. Das ist zum
	Teil erstaunlich witzig.