Robots.txt

von Michael Schöttler

Kategorie(n): FAQ der Webmaster Hangouts Datum: 18. November 2016
 

Kernaussagen:

  1. Google schaut sich die robots.txt in der Regel ein Mal pro Tag an.
  2. In der robots.txt kann man Inhalte für das Crawlen und Indexieren durch Google blockieren.
  3. Für Seiten, die aus dem Index verschwinden sollen, sollte man Noindex nutzen. Denn durch das Blockieren mit robots.txt kann Google sie nicht mehr sehen und verarbeiten.

29.06.2017, 17:27

Frage: Wenn ich in einem Unterverzeichnis einer Domain ein independent CMS System habe, muss dann die robots.txt für dieses CMS trotzdem im Root der Domain sitzen? Antwort: Ja, wir lesen sie nur im Root vom Hostname. Das kann auch eine Subdomain sein, aber dort suchen wir sie. In Unterverzeichnissen suchen wir nicht.

16.06.2017, 10:00

Frage: Ignoriert Google Weiterleitungen von einer robots.txt zu einer anderen? Antwort: Wir folgen solchen Weiterleitungen.

30.05.2017, 05:47

Frage: Wir sind zu Magento gewechselt und das System erstellt automatisch einige URLs. Die haben wir nun per robots.txt blockiert, da sie alle doppelt sind. Search Console beschwert sich nun aber, dass wir wichtige URLs blockieren. Kann das der Grund für unsere Probleme beim Ranking sein? Antwort: Wenn ihr die URL-Struktur komplett ändert, dann gibt es immer Fluktuationen. Vor allem, wenn ihr noch nicht alle Weiterleitungen eingerichtet habt. Das hört sich bei euch aber etwas extremer an, da muss man dann mal mehr analysieren. Was die blockierten Seiten angeht, solltet ihr das Crawlen erlauben und uns per Canonical auf die richtigen Seiten verweisen. Denn ansonsten finden wir Links zu diesen Seiten, können sie aber nicht sehen und nicht ranken.

20.10.2016, 09:28

Frage: Googlebot und robots.txt - werden hier bei Google gerade Änderungen vorgenommen? Weil sämtliche Seiten, die ich in der robots.txt auf Noindex gesetzt habe, tauchen im Moment in der Suche auf, als ob sie disallow wären. Und zählen disallowte Seiten mit in die Gesamtqualität der Website oder werden diese nicht gewertet, da der Bot den Inhalt nicht kennt? Antwort: Da kommen wohl verschiedene Komponenten zusammen. Der Noindex in der robots.txt wird von uns nicht offiziell unterstützt. Da kann es dann sein, dass das gar nicht angesehen wird uns es nicht funktioniert. Wenn du aber Noindex auf Seiten hast, die mit robots.txt blockiert werden, dann können wir das gar nicht sehen. Wir haben dann auch keine Inhalte dazu und die Seiten werden nur aufgrund der Links indexiert. Dann werden sie aber zum Großteil nicht in den SERPs erscheinen und wir können die Inhalte auch nicht für die Qualitätsbestimmung nutzen. Bei Seitenabfragen sieht man sie dann aber schon. Um einen Noindex da sehen zu können, müssen wir die Seiten crawlen dürfen.

17.05.2016, 05:17

Frage: Ich nutze eine robots.txt mit Noindex, Nofollow Meta Tag. Kann Googlebot trotzdem andere Markups auf der Seite sehen, zum Beispiel Canonical, Hreflang, Mobile Alternate etc? Antwort: Ja, das kann man dann noch sehen. Aber ich weiß nicht, ob das Sinn machen würde. Ein Noindex mit Canonical passt zum Beispiel nicht zusammen. Denn wir sehen, dass zwei Seiten gleich sein sollen, also würde ja auch das Noindex für beide gelten, oder? Seid also bei den Markups so einfach wie möglich, damit nichts falsch interpretiert werden kann.

08.04.2016, 33:35

Frage: Wir haben versucht, bei einem Kunden Parameter mit der robots.txt zu blockieren. Laut unserem eigenen Crawler funktioniert es, aber das Google Testing Tool zeigt uns Fehler an. Antwort: Wenn ihr nicht-standardisierte Dinge benutzt, dann ist es schwer für uns, das zu erkennen. Ich müsste mir das aber mal genau anschauen. Ihr solltet vielleicht die unescaped Tags nutzen. Bei der robots.txt kann man auch immer einzelne Dinge austauschen und dann testen. Dann seht ihr besser, was funktioniert.

07.04.2016, 19:38

Frage: Wie lange dauert es für Google, um Änderungen an einer robots.txt zu aktualisieren bzw. für Nicht-Bilddateien die neuen Crawling-Zugriffe zu aktualisieren? Antwort: In der Regel schauen wir uns die robots.txt mindestens einmal täglich an. Wenn ihr etwas ändert und das soll sofort aktualisiert werden, dann könnt ihr das via Search Console einreichen.

11.03.2016, 00:59

Frage: Wir haben eine neue robots.txt Regel, sehen aber noch keine Änderungen bei den indexierten Seiten. Was ist da los? Antwort: Normalerweise crawlen wir die robots.txt so ziemlich jeden Tag. Ihr solltet die Effekte also am nächsten Tag sehen. Das heißt aber nicht, dass ihr eine Änderung bei den indexierten URLs sehen, denn auch blockierte können noch angezeigt werden. Wenn ihr sie aus dem Index haben wollt, dann solltet ihr einen Noindex nutzen.

26.02.2016, 50:51

Frage: Habt ihr die Art und Weise geändert, mit der ihr die robots.txt lest und die Wildcard in der Disallow-Option interpretiert? Antwort: Wir haben hier keine Änderungen vorgenommen. Die Dokumentation wurde jedoch vor einiger Zeit aktualisiert, einfach um zu dokumentieren, was der aktuelle Stand ist.

12.02.2016, 47:14

Frage: Wie lange braucht Google, um Seiten aus dem Index zu nehmen, die per robots.txt blockiert sind? Antwort: Wenn sie blockiert sind, bleiben sie vielleicht für immer im Index. Wenn ihr sie aus dem Index haben wollt, setzt sie auf Noindex und blockiert sie auf gar keinen Fall.

15.01.2016, 10:02

Frage: Wir haben vor Kurzem herausgefunden, dass Google Tausende von URLs mit “jsessionid” Parametern indexiert hat. Wir haben diese per robots.txt disallowed. Wie lange dauert es normalerweise, bis der Googlebot die neuen Direktiven aufnimmt? Antwort: Zum einen dauert die neue robots.txt etwa einen Tag, denn für die meisten Seiten gucken wir sie uns einmal pro Tag an. Wenn ihr sie in Search Console einreicht, dann kann das noch schneller gehen. Zum anderen ist es so, dass wenn ihr Dinge in robots.txt disallowed, dann müsst ihr das Crawlen erlauben und dort deutlich machen, dass sie aus dem Index raussollen. Denn wenn ihr das Crawlen verbietet, dann können wir sie nicht mehr sehen. Und die robots.txt hat nichts mit dem Index zu tun, sondern nur mit dem Crawlen. Content ist dann vielleicht weg, aber die URL bleibt wahrscheinlich im Index. Wenn jemand dahin verlinkt, dann kann man es noch finden.

11.12.2015, 24:10

Frage: In welchen Situationen soll robots.txt für Noindex genutzt werden? Antwort: Ich empfehle, das zu machen, wenn das Crawling zu Server-Fehlern führt. Suchergebnisseiten sind ein weiteres Anwendungsgebiet. Ich würde es nicht bei dünnen oder schlechten Inhalten nutzen, da wir dann viele der Signale, die wir für diese Seiten hatten, verlieren werden. Ein Canonical oder Noindex macht daher in solchen Fällen mehr Sinn.

01.12.2015, 33:58

Frage: Wir haben das Limit bei der Größe unserer robots.txt Datei erreicht, deswegen suchen wir nun nach alternativen Möglichkeiten unsere Crawling Bandbreite zu erhalten, ohne dass Tausende von Variationen unserer Suchergebnisse indexiert werden. Ist es sinnvoll, noindex-nofollow auf Seitenebene zu verwenden? Antwort: Sicher, ihr könnt noindex-nofollow auf Seitenebene verwenden. Es hilft Google dabei, die oben genannten Seiten nicht zu crawlen. Der schwierige Part ist, dass wir diese Seiten crawlen müssen, die ein noindex-nofollow haben, damit wir diese markieren können. Das größere Problem, das ich bei dieser Frage sehe, ist, dass, wenn ihr das Limit bei der Größe der robots.txt Datei erreicht habt, die robots.txt Datei vermutlich zu kompliziert ist. Es dürfte auf lange Sicht schwierig sein, diese Datei zu pflegen. Ich würde Zeit dafür aufbringen, die robots.txt Datei zu reduzieren, um die Pflege der Datei einfacher zu machen und um zu sehen, welche Teile der Website blockiert werden.

01.12.2015, 33:07

Frage: Ist es möglich, eine robots.txt Zeile zu haben, die die Mitte einer Anfrage annulliert und nicht nur den Anfang (die gesamte Subdirectory)? Antwort: Sicher.

05.11.2015, 50:30

Frage: Google News blockieren: 1. <meta name=”Googlebot-News” content=”noindex, nofollow”> ignoriert Google. 2. Verzeichnis über robots.txt ausgesperrt: Artikel werden immer noch teilweise gelistet. Jetzt sind wir etwas ratlos, was wir noch tun können!? Antwort: Ich müsste das mit dem News Team anschauen. Schicke mir doch bitte den Link. Wenn ihr Noindex und robots Blockierung auf einmal macht, dann sehen wir den Noindex vielleicht nicht, da wir es uns ja nicht anschauen dürfen.

05.11.2015, 35:45

Frage: Frage zu robots.txt vs. Noindex: Ist die robots.txt für den Robot nach wie vor eine nützliche Crawlhilfe oder oft eher hinderlich bzw. ist es empfehlenswerter, betreffende Seiten z. B. Loginseite CMS auf Noindex zu setzen? Antwort: Es kann durchaus Sinn machen. Wir sagen nicht, dass man sie nicht mehr verwenden soll. Man soll aber alles, was zum Seitenaufbau beiträgt, freigeben. Z. B. JavaScript, CSS und Bilder. Bei Loginseiten würde ich eher mit Noindex arbeiten. Denn wenn sie mit robots.txt blockiert ist, können wir sie zwar nicht sehen, zeigen sie aber unter Umständen trotzdem an. Also in solchen Fällen das Crawlen erlauben und dann per Noindex aus dem Index fernhalten.

27.10.2015, 46:04

Frage: Wenn ich die Option “Fetch as Google” in der Search Console nutze, erhalte ich die Meldung, dass der Googlebot durch die robots.txt von Google Maps ausgeschlossen ist. Bedeutet dies, dass die Einbindung von Google Maps Ausschnitten auf meiner Website keine SEO Effekte hat, da Google dies blockiert? Antwort: Vielleicht. Wenn Google Maps aktuell durch robots.txt blockiert wird, dann kann der Inhalt, der in Google Maps dargestellt wird, nicht von Google für die Indexierung / für das Ranking genutzt werden. Wir verstehen den Rest der Seite meistens trotzdem – aufgrund der umgebenen Inhalte. Wenn die meisten Inhalte allerdings direkt auf der Karte bereitgestellt werden (z. B. die Markierung einzelner Filialen in Form von Pins auf der Karte) und Google Maps blockiert wird, dann wird es schwierig. In diesem Fall wäre es hilfreich, wenn die Informationen nicht nur auf der Google Maps Karte, sondern auf der Seite an sich bereitgestellt werden würden – z. B. in Form einer Auflistung der Filialen mit Links zu den Pins auf der Karte.

16.10.2015, 36:34

Frage: Das Updaten der robots.txt ist in der Search Console nicht gut dargestellt. Dort steht nur, “einreichen” und es wirkt, als ob es sich nur eine Testeinreichung handelt und nicht um eine Anfrage, die neueste Version zu ziehen. Antwort: Ich werde das mit dem Team diskutieren. Die Idee dahinter ist, dass man mit Hilfe der Search Console testen kann – danach kann man sie dann downloaden und implementieren. Wir versuchen, einmal täglich zu crawlen und dann zu updaten. Wenn ihr sie eingereicht habt, kann es sogar schneller gehen.

27.08.2015, 14:42

Frage: Wir betreiben auf einem Server einen Mandantenshop. Es gibt nur eine robots.txt, aber mehrere Sitemaps für mehrere Domains. “Darf” man in einer robots auf mehrere sitemap-Dateien verweisen, die auf unterschiedlichen Domains liegen? Antwort: Ja, kann man machen. Für die einfachere Erkennbarkeit wäre aber die Bereitstellung mehrerer robots.txt zu empfehlen.

11.08.2015, 13:17

Frage: Macht es Sinn, den Meta Robots Tag: Nofollow zu nutzen, wenn dynamische URLs per robots.txt geblockt werden? Antwort: Wenn eine Seite durch robots.txt blockiert wird, dann können wir keine Meta Tags auf den entsprechenden Seiten mehr sehen. Wenn die Tags euch also wichtig sind, dann müsst ihr das Crawlen erlauben – ggf. als Noindex.

17.06.2015, 12:00

Frage: Was wäre der richtige Weg, um https://m.domain.com/#home in robots.txt zu testen? Antwort: Wir unterstützen die Fragmente wie Hashtags in der robots.txt nicht, wir kümmern uns immer nur um den Path oder die Query String Parameter. Wenn du dann das Hashtag nutzt, gehen wir davon aus, dass darauf Kommentare folgen - und ignorieren es. Wenn du das crawlen für so einen Path blockieren willst, geht das nicht in der robots.txt. Dann müsstest du die ganze URL blockieren oder das Hashing Setup nutzen.

05.06.2015, 35:15

Frage: Ich habe einige Seiten, die ich per robots.txt geblockt habe, aber sie verschwinden nicht aus dem Index. Was kann ich tun, um sie loszuwerden? Antwort: Du solltest sie in robots.txt freigeben und auf No Index setzen, beim nächsten Crawlen fliegen sie dann aus dem Index. Um das schneller zu machen, kannst du uns ein Sitemap File schicken. Man kann auch das Parametertool nutzen, dies bringt aber nur etwas, bevor die Seiten im Index sind.

04.06.2015

Frage: Was ist der Unterschied zwischen dem Noindex-Meta-Tag und dem robots.txt? Welche Variante empfiehlt Google? Antwort: Robots.txt: Inhalte können nicht gecrawlt werden, werden nicht durch Google indexiert. Noindex-Meta-Tag: Inhalte können gecrawlt werden, werden nicht durch Google indexiert

02.06.2015, 31:50

Frage: Ich möchte eine Website testen, bevor ich sie indexieren lasse. Ich wollte sie in der Google Search Console prüfen, aber das funktioniert nicht, da in der robots.txt „Disallow: / (All)“ steht. Wenn ich „Abruf wie Google“ in der Google Search Console durchführe, erhalte ich die Meldung, dass der Zugriff blockiert ist. Wie kann ich meine Website vorab prüfen? Antwort: Robots.txt entfernen, x robots no index tag http header benutzen. Google indexiert den Inhalt dann nicht, kann die Seiten aber crawlen. [toc]