SEO-Grundlagen IX: robot.txt-Dateien richtig erstellen

SEO-Grundlagen IX: robot.txt-Dateien richtig erstellen

Was bringt die robot.txt-Datei?

Mitunter liegen auf dem Server oder dem Webspace Dateien, die nicht zwingend jeder einsehen soll oder die nicht in den verschiedenen Suchmaschinen indexiert werden sollen. Dies betrifft beispielsweise Unterseiten, die noch nicht freigegeben sind. Oder auch Weiterentwicklungen, Programme und Skripte, die nur für einen bestimmten Nutzerkreis gedacht sind und nicht im Google-Cache auftauchen sollen. Darüber hinaus kann es sinnvoll sein, bestimmte Bereiche aus Datenschutzgründen von einer Indexierung auszuschließen, beispielsweise Profilinformationen aus einem Forum. Mit der robot.txt-Datei können die Spider und Crawler nun entsprechend gesteuert werden.

Grundlegendes über die robot.txt

Grundlage für die robot.txt-Datei ist das Robots-Exclusion-Standard-Protokoll. Für die Suchmaschinenoptimierung sind vor allem folgende Aspekte relevant:

  • Die robot.txt-Datei befindet sich immer im Hauptverzeichnis der Domain, also auf der obersten Verzeichnisebene. Damit lautet die URL immer: http://www.webseite.de/robot.txt.
  • Die Angaben für Dateien und Verzeichnisse folgen immer direkt nach der Domain.
  • Es gibt die Anweisungen „allow“ und „disallow“. Da erstere die Regel ist, muss sie nicht explizit verwendet werden.
  • Groß- und Kleinschreibung muss berücksichtigt werden.
  • Der Stern (*) fungiert als Platzhalter. Soll etwa eine Regel für alle mit „privat“ beginnenden Verzeichnisse formuliert werden, sollte dies so aussehen: privat*.
  • Wenn mehrere Regeln formuliert werden, werden die einzelnen Regeln durch einen Leerzeile getrennt.

Wie eine robot.txt-Datei aufgebaut ist

Wie bereits erwähnt, muss die robot.txt-Datei im Hauptverzeichnis abgelegt werden. Dabei gilt, dass nur eine robot.txt pro Domain hinterlegt werden darf. Werden jedoch Inhalte sowohl über http als auch über https angeboten, ist für jedes dieser Protokolle eine eigene Datei-Version zu erstellen. Die Anweisungen in der robot.txt setzen sich immer aus zwei Teilen zusammen – der Definition des Spiders/Crawlers und der eigentlichen Regel. Um den Robot zu definieren, wird der Befehl „User-agent“ verwendet, gefolgt von einem Doppelpunkt und dem jeweiligen Crawler-Namen (zum Beispiel „User-agent: Googlebot“). Es müssen jedoch nicht immer alle Crawler und Spider einzeln definiert werden. Wer eine globale Regel anlegen will, die für alle Robots gelten soll, muss dem „User-agent:“ einfach einen Stern folgen lassen. Nachdem die Robots-Namen festgelegt sind, folgt die eigentliche Anweisung. Es werden also die Dateien und Ordner angegeben, die aufgenommen beziehungsweise nicht indexiert werden sollen. Dabei ist für jede Datei und jeden Ordner eine eigenen Zeile anzulegen, die entweder mit „allow“ oder mit „disallow“ beginnt und nach einem Doppelpunkt mit dem Datei- oder Ordnernamen abgeschlossen wird. Wichtig ist in diesem Zusammenhang noch, dass der Pfad immer ohne die Domain anzugeben ist und mit einem „Slash“ (/) beginnt. Soll beispielsweise eine einzelne Seite nicht vom Googlebot gecrawlt werden, würde die entsprechende Anweisung in der robot.txt-Datei so aussehen:

User-agent: Googlebot

Disallow: /name-der-datei.html

SEO-Grundlagen I: Mit Title-Tags den Seiteninhalt beschreiben

SEO-Grundlagen II: Meta-Description als Zusammenfassung der Webseiteninhalte

SEO-Grundlagen III: Warum „sprechende“ URLs so wichtig sind

SEO-Grundlagen IV: Webseiten-Navigation einfacher gestalten

SEO-Grundlagen V: Content-Optimierung

SEO-Grundlagen VI: Ankertexte sollten zum verlinkten Inhalt passen

SEO-Grundlagen VII: Worauf beim Bilder-SEO zu achten ist

SEO-Grundlagen VIII: Die richtige Verwendung von Überschriften-Tags

SEO-Grundlagen IX: robot.txt-Dateien richtig erstellen

Teilen