Google, I'll tell you what I really really want: So steuere ich den Crawler richtig

von Mandy Reckert

Kategorie(n): Ratgeber Datum: 16. August 2019
Manchmal wundert man sich, welche Seiten von Google indexiert werden und welche nicht – vor allem bei Seiten, die einem selber wichtig sind. Welche Gründe es haben kann, dass der Googlebot die Seite nicht indexiert oder sie sogar nach der Indexierung wieder rausschmeißt, erklären wir Euch im folgenden Beitrag.

Keine Lust zu lesen? Dann hört Euch direkt die Search Camp Episode 90 von Markus Hövener an:

[caption id="attachment_24382" align="alignnone" width="729"] https://blog.bloofusion.de/google-crawler-steuern/[/caption]

SEO-Grundkurs: Crawling ist ungleich Indexierung

Die erfahrenen SEO’s dürfen diesen Absatz einfach überspringen oder weiterlesen, um ihr Wissen aufzufrischen. Eine Seite muss zuerst vom Googlebot gecrawlt werden, bevor sie indexiert wird und bei Suchanfragen in der Ergebnisliste erscheint. Aber nicht alles, was gecrawlt wird, wird automatisch indexiert. Das kann dabei schiefgehen:
  • Duplicate Content: Wenn es den Inhalt schon mehrmals auf anderen Websites gab, wird sie manchmal von Google nicht indexiert.
  • Technisches Problem: Die Seite liefert einen 503-Fehler, sie steht auf noindex, ist in der robots.txt gesperrt, das Canonical-Tag ist falsch, etc.
  • Kein Traffic: Die Seite wurde gecrawlt und indexiert, generiert aber keinen Traffic. Mögliche Gründe können sein, dass der Inhalt auf der Seite nicht auf die Suchbegriffe abgestimmt oder der Search Intent verfehlt wurde.

Was tun, wenn die Seite nicht indexiert wurde?

1. Kommt der Crawler an die wichtigen Seiten bzw. URL’s heran?

Interne Verlinkung überprüfen Der Crawler steuert u. a. eine Seite über interne Links innerhalb einer Website an. Das bedeutet, dass Seiten gute und funktionierende Verlinkungen aufweisen sollten:
  • Von der Startseite verlinken: Links von der Startseite und von Übersichtsseiten werden relativ schnell und oft vom Googlebot gecrawlt. Daher können hier Links zu wichtigen und relevanten Seiten platziert werden, die schnell in den Index gelangen sollen.
  • Mit wenigen Klicks die Seite erreichen: Es kann passieren, dass der Crawler manche Seiten gar nicht mehr abholt, da sie erst nach vielen Klicks erreicht werden, obwohl sie existieren und Nutzer die Seiten aufrufen können. Empfehlenswert ist eine maximale Klicktiefe zwischen fünf und sieben.
Idealerweise erfolgt die Überprüfung nicht händisch, sondern man nutzt einen Webcrawler, z. B. den Screaming Frog SEO Spider. So kann man einfach einen eigenen Crawl über die wichtigen Seiten machen und schauen, ob auch der Googlebot an diese Seiten herankommt. XML-Sitemap hinterlegen Da der Crawler nicht nur über interne Links, sondern auch über die XML-Sitemap auf die Seite gelangt, sollte diese auch geprüft werden. Die wichtigsten Seiten, die der Googlebot crawlen soll, müssen in der XML-Sitemap vorhanden sein. Das Lastmod, das Datum der letzten Veränderung einer Seite, kann über die XML-Sitemap ausgeliefert werden. Das ist sinnvoll, damit Google sieht, dass sich bspw. nur drei von insgesamt tausend Seiten geändert haben und der Google Crawler bevorzugt auf diese drei Seiten geschickt wird. Ansonsten ist er mit vielen weniger relevanten Seiten beschäftigt und gelangt erst später zu den wichtigen Seiten.

2. Wird der Crawler mit irrelevanten Seiten abgelenkt?

Es gibt viele Fälle, die in Bezug auf Indexierung in Ordnung sind, die aber den Crawler übermäßig und unnötig aufhalten: Canonical-Tag Ein Beispiel: 100 Seiten kanonisieren auf eine Seite. Das heißt, diese 100 Seiten werden zusammengenommen, daraus wird ein Cluster gebildet und die internen Link-Signale werden aufaddiert. Grundsätzlich ist das gut für den Index, aber nicht sinnvoll für das Crawling. Denn der Crawler muss mehrmals und regelmäßig diese 100 Seiten herunterladen. Das lässt das Crawl-Budget schnell schmälern, sodass täglich nicht alle Seiten gecrawlt werden können. Erste Empfehlung: Sind diese 100 Seiten Dubletten, die bspw. durch die Nutzung von URL-Parametern entstanden sind, sollten diese in der Google Search Console konfiguriert werden. Zweite Empfehlung: Sind diese 100 Seiten nicht relevant (z. B. Filter-Seiten, Wunschlisten, Print-Funktion), sollten diese per robots.txt für den Crawler unzugänglich gemacht werden. Bei der Suche nach irrelevanten Seiten ist ein kompletter Crawl der Website mit dem Screaming Frog SEO Spider sinnvoll, um diese für den Googlebot auszuklammern.

3. Schaut in die Google Search Console

In der Google Search Console könnt ihr ganz genau sehen, wie Google eure Website bewertet, was funktioniert und wo es Fehler gibt. Somit ist es wichtig hineinzuschauen und Google zu zeigen, welche Seiten Euch wichtig sind. Es gibt dort zwei Funktionen, die Auskunft über die Seiten geben: die URL-Prüfung und das URL Inspection Tool. Darin kann jeweils eine konkrete URL eingegeben werden, um herauszufinden, ob mit der Seite alles in Ordnung ist. Wichtig ist, dass vorher eine XML-Sitemap hinterlegt und somit die wichtigen Seiten mitgeteilt werden. Dann können dort die konkreten Fehler eingesehen werden. Dieser Beitrag wurde von Mandy Reckert zusammengefasst. Der Inhalt stammt aus der vergangenen Search Camp Podcast Episode „Google Crawler: Wie steuere ich den richtig“ von Markus Hövener (Head of SEO, Bloofusion).

Ihr möchtet lernen, wie Ihr Euer SEO-Wissen an konkreten Website-Problemen anwenden könnt?

Das könnt Ihr am 10. Oktober 2019 beim On Page Training Day von OMCampus üben. An dem Tag geht es darum, konkrete Fälle durchzuspielen und zusammen geeignete On-Page-Maßnahmen zu finden.

Infos zum On Page Training Day:

  • Wann: 10. Oktober 2019
  • Wo: Münster (Westf.)
  • Dauer: ca. 8 Stunden
  • Kosten: 349,00 € (netto), um 50 % günstiger mit dem Bildungsscheck NRW, um 10 % günstiger mit dem Coupon-Code seoportal-10
Achtung: Teilnehmerzahl auf 20 Personen begrenzt!