SEO-Grundlagen IX: robot.txt-Dateien richtig erstellen

Novalnet
August 11, 2014

Was bringt die robot.txt-Datei?

Mitunter liegen auf dem Server oder dem Webspace Dateien, die nicht zwingend jeder einsehen soll oder die nicht in den verschiedenen Suchmaschinen indexiert werden sollen. Dies betrifft beispielsweise Unterseiten, die noch nicht freigegeben sind. Oder auch Weiterentwicklungen, Programme und Skripte, die nur für einen bestimmten Nutzerkreis gedacht sind und nicht im Google-Cache auftauchen sollen. Darüber hinaus kann es sinnvoll sein, bestimmte Bereiche aus Datenschutzgründen von einer Indexierung auszuschließen, beispielsweise Profilinformationen aus einem Forum. Mit der robot.txt-Datei können die Spider und Crawler nun entsprechend gesteuert werden.

Grundlegendes über die robot.txt

Grundlage für die robot.txt-Datei ist das Robots-Exclusion-Standard-Protokoll. Für die Suchmaschinenoptimierung sind vor allem folgende Aspekte relevant:

Die robot.txt-Datei befindet sich immer im Hauptverzeichnis der Domain, also auf der obersten Verzeichnisebene. Damit lautet die URL immer: http://www.webseite.de/robot.txt.
Die Angaben für Dateien und Verzeichnisse folgen immer direkt nach der Domain.
Es gibt die Anweisungen „allow“ und „disallow“. Da erstere die Regel ist, muss sie nicht explizit verwendet werden.
Groß- und Kleinschreibung muss berücksichtigt werden.
Der Stern (*) fungiert als Platzhalter. Soll etwa eine Regel für alle mit „privat“ beginnenden Verzeichnisse formuliert werden, sollte dies so aussehen: privat*.
Wenn mehrere Regeln formuliert werden, werden die einzelnen Regeln durch einen Leerzeile getrennt.

Wie eine robot.txt-Datei aufgebaut ist

Wie bereits erwähnt, muss die robot.txt-Datei im Hauptverzeichnis abgelegt werden. Dabei gilt, dass nur eine robot.txt pro Domain hinterlegt werden darf. Werden jedoch Inhalte sowohl über http als auch über https angeboten, ist für jedes dieser Protokolle eine eigene Datei-Version zu erstellen. Die Anweisungen in der robot.txt setzen sich immer aus zwei Teilen zusammen – der Definition des Spiders/Crawlers und der eigentlichen Regel. Um den Robot zu definieren, wird der Befehl „User-agent“ verwendet, gefolgt von einem Doppelpunkt und dem jeweiligen Crawler-Namen (zum Beispiel „User-agent: Googlebot“). Es müssen jedoch nicht immer alle Crawler und Spider einzeln definiert werden. Wer eine globale Regel anlegen will, die für alle Robots gelten soll, muss dem „User-agent:“ einfach einen Stern folgen lassen. Nachdem die Robots-Namen festgelegt sind, folgt die eigentliche Anweisung. Es werden also die Dateien und Ordner angegeben, die aufgenommen beziehungsweise nicht indexiert werden sollen. Dabei ist für jede Datei und jeden Ordner eine eigenen Zeile anzulegen, die entweder mit „allow“ oder mit „disallow“ beginnt und nach einem Doppelpunkt mit dem Datei- oder Ordnernamen abgeschlossen wird. Wichtig ist in diesem Zusammenhang noch, dass der Pfad immer ohne die Domain anzugeben ist und mit einem „Slash“ (/) beginnt. Soll beispielsweise eine einzelne Seite nicht vom Googlebot gecrawlt werden, würde die entsprechende Anweisung in der robot.txt-Datei so aussehen:

User-agent: Googlebot

Disallow: /name-der-datei.html

SEO-Grundlagen I: Mit Title-Tags den Seiteninhalt beschreiben

SEO-Grundlagen II: Meta-Description als Zusammenfassung der Webseiteninhalte

SEO-Grundlagen III: Warum „sprechende“ URLs so wichtig sind

SEO-Grundlagen IV: Webseiten-Navigation einfacher gestalten

SEO-Grundlagen V: Content-Optimierung

SEO-Grundlagen VI: Ankertexte sollten zum verlinkten Inhalt passen

SEO-Grundlagen VII: Worauf beim Bilder-SEO zu achten ist

SEO-Grundlagen VIII: Die richtige Verwendung von Überschriften-Tags

SEO-Grundlagen IX: robot.txt-Dateien richtig erstellen

Novalnet
Das Redaktionsteam von Novalnet besteht aus erfahrenen, internationalen Marketingexperten aus dem Umfeld der sich schnell wandelnden Zahlungsindustrie. Unser Team informiert Sie zu allen relevanten Themen aus den Bereichen E-Commerce, Zahlungsabwicklung, Marktplätze, Bezahltrends, Zahlungstechnologien, Gateways und vielem mehr.

Cookie	Dauer	Beschreibung
cookielawinfo-checkbox-analytics	1 year	Dieses Cookie wird vom GDPR-Cookie-Consent-Plugin gesetzt und zeichnet die Zustimmung des Nutzers zu den Cookies der Kategorie „Analytics“ auf.
cookielawinfo-checkbox-necessary	1 year	Dieses Cookie wird vom GDPR Cookie Consent Plugin gesetzt und speichert die Zustimmung des Nutzers zu den Cookies der Kategorie „Notwendig“.
CookieLawInfoConsent	1 year	CookieYes setzt dieses Cookie, um den Standard-Schaltflächenstatus der entsprechenden Kategorie und den Status von CCPA zu speichern. Es funktioniert nur in Koordination mit dem primären Cookie.

Cookie	Dauer	Beschreibung
_ga	1 year 1 month 4 days	Google Analytics setzt dieses Cookie, um Besucher-, Sitzungs- und Kampagnendaten zu berechnen und die Nutzung der Website für den Analysebericht der Website zu verfolgen. Das Cookie speichert Informationen anonym und weist eine zufällig generierte Nummer zu, um einzelne Besucher zu erkennen.
_ga_*	1 year 1 month 4 days	Google Analytics setzt dieses Cookie, um Seitenaufrufe zu speichern und zu zählen.
_gat_UA-*	1 minute	Google Analytics setzt dieses Cookie zur Verfolgung des Nutzerverhaltens.n
_gcl_au	3 months	Google Tag Manager setzt das Cookie, um die Werbeeffizienz von Websites zu testen, die seine Dienste nutzen.
_gid	1 day	Google Analytics setzt dieses Cookie, um Informationen darüber zu speichern, wie Besucher eine Website nutzen, und um einen Analysebericht über die Leistung der Website zu erstellen. Zu den gesammelten Daten gehören die Anzahl der Besucher, ihre Quelle und die Seiten, die sie anonym besuchen.