Webseite weg! – Der Fluch der Robots.txt-Datei

Close

 

In der robots-txt-Datei kann man alle Seiten auflisten, deren Inhalt man von den Suchmaschinen-Robots weder gecrawlt noch indexiert haben will. Bevor die Robots auf eine Seite zugreifen, lesen sie im Hauptverzeichnis einer Webseite die robots.txt-Datei aus, um zu prüfen, welche Seiten für sie gesperrt sind. Alle seriösen Robots folgen diesen Anweisungen, aber nicht alle interpretieren sie gleich.

Warum Tante G**gle bei einer fehlerhaften Robots.txt den Stecker zieht

So weit so gut. Ist die robots.txt-Datei fehlerfrei, ist alles in Ordnung. Ist sie jedoch fehlerhaft oder nicht erreichbar, kann Ihre Webseite von Google ganz schnell, nach ganz weit hinten geschupst werden. Und wenn sie zu lange im Nirgendwo rankt und es ganz dumm kommt, kann sie dann sogar aus dem Google-Index fliegen.

 

Was ist passiert, warum straft Google das ab?

Es handelt sich hierbei nicht um Abstrafung, sondern um einen Effekt:

Wenn die robots.txt-Datei für den Googlebot nicht erreichbar ist – also, wo sie nicht nur einen 404/410-Status liefert – sondern für Googlebot gar nicht erreichbar ist, kann Google nicht wissen, ob die Inhalte für das Crawling freigegeben wurden oder nicht.

Um zu vermeiden, dass Inhalte gecrawlt werden, die der Webseitenbetreiber eigentlich für die Suchmaschinen gesperrt haben möchte, interpretiert Google eine nicht zugängliche robots.txt-Datei so, als wenn die gesamte Webseite für das Crawling aktuell gesperrt wurde.

 

Folgen einer nicht erreichbaren robots.txt-Datei

Eine robots.txt-Datei, die vom Suchmaschinen-Robot nicht erreicht werden kann (eine robots.txt ohne 404/410-Status) führt dazu, dass die Webseite nicht mehr gecrawlt wird und somit in den Suchergebnissen ganz nach hinten rutscht und irgendwann ganz aus dem Index fällt.

Hat eine Webseite keine robots.txt-Datei, liefert sie dem Robot bei der Abfrage einen 404/410-Status und alles ist gut, weil der Googlebot das so interpretiert, dass alles gecrawlt werden kann. Gibt es aber eine fehlerhafte oder eine nicht erreichbare robots.txt, dann nimmt das Unglück seinen lauf.

Lösung

Möchte man eine robots.txt-Datei testen, ob sie korrekt funktioniert, so kann man das in den Google Webmaster Tools.

 

Dazu müssen Sie sich über Ihr Google-E-Mail-Konto in den Webmaster Tools anmelden und sich als Seiten-Inhaber ausweisen.

Falls Sie nicht genau wissen, wie man das macht, schauen Sie sich das Video an.

 

Wie erstellt man eine robots.txt-Datei?

  1. Gehen Sie auf die Startseite in den Google Webmaster Tools
  2. Klicken Sie auf die gewünschte Seite
  3. Klicken Sie in der linken Sidebar unter Website-Konfiguration die Option „Crawler-Zugriff“ an
  4. Klicken Sie die Optionrobots.txt generieren“ an
  5. Legen Sie den Standardzugriff „alle Robots “ fest oder wählen Sie eine andere Option
  6. Geben Sie zusätzliche Regeln/Anweisungen an, welche Dateien und Verzeichnisse weder gecrawlt noch indexiert werden sollen:

 

a) In der Liste „Aktionen“ wählen Sie die Option „Disallow“ aus

b) Wählen Sie entweder „Googlebot“ oder „alle Robots“

c) Geben Sie alle Verzeichnisse ein, die Sie gesperrt haben wollen

d) Klicken Sie auf „hinzufügen“

e) Die robots.txt-Datei wird aufomatisch erstellt und im unteren Textfeld angezeigt.

 

7. Speichern Sie die Datei auf Ihrer Festplatte ab, laden Sie sie ins Hauptverzeichnis/Root Ihrer Domain mithilfe eines FTP-Clients hoch. Die Suchrobots suchen nach ihr nur in Hauptverzeichnis. Sollte sie in einem Unterverzeichnis abgelegt werden, wird sie somit ungültig.

Wie testet man eine robots.txt-Datei?

Folgen Sie den Anweisungen oder schauen Sie sich dazu das Video an:

  1. Auf der Startseite der Webmaster-Tools die gewünschte Website anklicken.
  2. Unter „Website-Konfiguration“ in linker Sidebar auf „Crawler-Zugriff“ klicken
  3. Auf die Registerkarte „robots.txt testen“ klicken
  4. Den Inhalt der „robots.txt“-Datei kopieren und in das erste Feld einfügen
  5. Im Feld „URLs“ die Website angeben, die getestet werden soll
  6. In der Liste „User-Agents“ die gewünschten User-Agents auswählen

 

Erstellen und testen einer robots.txt-Datei

Beachten Sie, dass alle in diesem Tool vorgenommenen Änderungen nicht gespeichert werden. Kopieren Sie deshalb alle Änderungen und fügen Sie diese direkt in die robots.txt-Datei ein.

Denken Sie daran, dass die Inhalte einer robots.txt-Datei zwar weder gecrawlt noch indiziert werden, dass jedoch die URL Ihrer Seite auf einer anderen Webseite gefunden werden kann und dann indexiert wird und in den Suchergebnissen auftaucht.

Seite mit robots.txt-Datei blockieren

Wollen Sie, dass die Inhalte nie an die Öffentlichkeit gelangen, sollten Sie diese mit einem Passwort schützen oder durch eine 301-Weiterleitung beispielsweise auf die Hauptseite umleiten.

Das Crawlen oder Indexieren der Webseite bei Google beantragen

Gehen Sie dazu nach folgender Anweisung vor:

  1. In den Google Webmaster Tools auf Dashboard
  2. Klicken Sie in der linken Sidebar „Diagnose“ an
  3. Klicken Sie auf „Abruf wie durch Googlebot“
  4. Geben Sie den Pfad im Textfeld ein
  5. Wählen Sie im Dropdown-Menue die Option “Web“
  6. Klicken Sie auf „abrufen“
  7. Sobald Status „erfolgreich“ angezeigt wird auf „An den Index senden“ klicken
  8. Gewünschte Option auswählen
  9. Auf „Senden“ klicken.

Das noindex-Meta-Tag

Falls Sie den Zugriff auf Ihre Webseite durch ein Meta-Tag blockiert haben, achten Sie darauf, dass Sie dieselbe Seite nicht gleichzeitig in Ihrer robots.txt-Datei aufführen. Denn das noindex“-Meta-Tag kann nur beim Crawlen der betreffenden Seite gefunden werden. Wenn Sie die Seite jedoch dem mithilfe der „robots.txt“-Datei  blockiert habe, kann sie nicht gecrawlt werden und folglich diese Anweisung nicht beachtet werden.

Blockieren des Zugriffs durch noindex-Meta-Tag

  • Print
  • Digg
  • StumbleUpon
  • del.icio.us
  • Facebook
  • Yahoo! Buzz
  • Twitter
  • Google Bookmarks
  • Add to favorites
  • MisterWong.DE
  • LinkedIn
  • Live
  • Yigg

Schreibe einen Kommentar