Dass Suchmaschinen das gesamte Internet durchforsten und die meisten Seiten indexieren, ist allgemein bekannt. Doch wie funktioniert das Crawling und die Indexierung eigentlich?
Welche Crawler und Suchmaschinenbots Eure Webseiten besuchen, könnt Ihr in den Logfiles Eures Servers erkennen. Dort hinterlässt jeder Crawler oder Besucher „Fußspuren“. Ihr seht, mit welcher IP-Adresse zu welcher Uhrzeit welche Seite aufgerufen wurde. Mithilfe der Server-Logfiles lassen sich auch Hackerangriffe und sonstige unbefugte Zugriffe aufdecken.
Es gibt mehrere große Suchmaschinen: Bing, Yahoo, DuckDuckGo und Google. In diesem Beitrag erklären wir das Thema anhand dessen, was über den Googlebot bekannt ist.
So funktioniert das Crawling
Oft steigt ein Crawler auf der Startseite einer Website ein. Dort ermittelt er alle Links und folgt ihnen. Auf diese Weise „hangelt“ er sich von Seite zu Seite, wo er jeweils nach weiteren Links sucht. Gleichzeitig erfasst er die Inhalte der einzelnen Seiten.
Früher hat der Googlebot sich ausschließlich am Quelltext einer Seite orientiert. Seit einigen Jahren rendert der Googlebot jedoch eine visuelle Darstellung der Webseite samt aller CSS-Anweisungen, um ihr Layout und ihren Inhalt besser verstehen zu können. Dabei betrachtet Google jede Seite mit den Augen eines imaginären Smartphone-Nutzers. Es wird die Bildschirmbreite eines durchschnittlichen Smartphones zugrunde gelegt, die von Zeit zu Zeit an aktuelle Entwicklungen auf dem Markt angepasst wird. Webseiten, die mobiltauglich sind, haben daher Vorteile.
Wie geht der Googlebot mit Links um?
Der Googlebot folgt Links auf Seiten, die nicht auf „nofollow“ gesetzt sind. „Button“-Elemente klickt er dabei nicht an. Wer Button-Elemente als Links verwenden möchte, sollte sie mit <a href umschließen und mit einem <div>-Container einen Pseudo-Button designen. Die fehlende Erkennung seitens Google liegt nicht am Button selbst, sondern daran, dass Buttons meistens mit JavaScript auf andere Seiten verlinken und Google JavaScript-Links
nicht folgt.
Dieser Umstand wird von einigen SEOs zur Maskierung von Links genutzt – mit dieser Technik lassen sich Links vor Suchmaschinen verbergen, die SEO-technisch unbedeutend sind, menschlichen Besuchern hingegen aber gezeigt werden sollen.
Es gibt auch den umgekehrten Fall, also dass ein Crawler nicht alle Unterseiten einer Website zuverlässig erkennt, obwohl eine Indexierung ausdrücklich erwünscht ist. Dieses Problem tritt insbesondere bei sehr umfangreichen Websites auf. Falls nicht alle Unterseiten zuverlässig vom Crawler erkannt werden, kann man durch das Einreichen einer XML-Sitemap Abhilfe schaffen.
Wie lassen sich Seiten von der Indexierung ausschließen?
Wer die Indexierung einer Seite verhindern möchte, kann dies über den Metatag „robots“ bewerkstelligen. Dort wird einfach als Wert „noindex“ hinterlegt. Eine andere Möglichkeit besteht darin, Seiten oder ganze Unterverzeichnisse über die robots.txt-Datei auszuschließen. Gehen jedoch Links von externen Webseiten auf diese Seiten ein und sind die Seiten selbst nicht auf „noindex“ gesetzt, können Sie dennoch im Index erscheinen. Allerdings ist ihr Inhalt der Suchmaschine dann nicht bekannt und so wird dieser nicht als angerissener Text in den Suchergebnissen gezeigt.
Wie finde ich heraus, welche Seiten einer Website indexiert wurden?
Das lässt sich ganz einfach herausfinden. Und zwar mittels einer Site-Abfrage. Geben Sie dazu in das Eingabefeld der Suchmaschine Folgendes ein:
site:example.com
Ersetzen Sie „example.com“ durch den Namen der zu überprüfenden Domain.
Wie oft kommt der Crawler auf meiner Website vorbei?
Das hängt von Eurer Seite und deren Beliebtheit und Aktualität ab. Eine einfache Internetpräsenz, deren Inhalte nur selten aktualisiert werden, wird weniger oft von Suchmaschinencrawlern besucht, als beispielsweise eine beliebte Nachrichtenseite. Populäre Nachrichtenportale werden von Crawlern mitunter im Minutentakt besucht, während es bei einer einfachen Website alle ein bis zwei Monate der Fall sein kann.
Wenn Ihr an Euren Seiten Anpassungen vorgenommen habt, kann es daher eine Weile dauern, bis diese in Suchmaschinen zu finden sind. Was Google betrifft, habt Ihr die Möglichkeit, über die Google Search Console geänderte Seiten zur beschleunigten Neuindexierung anzustoßen.
Was geschieht nach dem Crawling?
Das Crawling von Seiten ist nur der erste Schritt. Das Crawling dient der Erfassung der einzelnen Seiten und ihrer Inhalte. Im zweiten Schritt wird die Indexierung vorgenommen. Hierbei
geht es darum, die Inhalte der einzelnen Seiten zu verstehen und zu katalogisieren.
Danach werden die Seiten in die Suchergebnisse aufgenommen. Eine Garantie dafür gibt es allerdings nicht – wenn die Seiten eine sehr, sehr niedrige Qualität aufweisen, erscheinen sie möglicherweise nicht in den Suchergebnissen. Aber dieser Fall tritt in der Praxis nur selten auf.
Wie kommen Rankings zustande?
Ein Ranking bezieht sich immer auf die konkrete Suchanfrage eines Nutzers. Eine Seite kann für bestimmte Suchanfragen schlecht ranken, während sie bei anderen Suchanfragen hingegen weit oben erscheint. Dieser Umstand hängt von der Relevanz der Seite in Bezug auf die konkrete Suchanfrage ab.
Wenn Euch bestimmte Suchbegriffe besonders wichtig sind, solltet Ihr diese auf der entsprechenden Seite erwähnen. Die Berücksichtigung des semantischen Umfelds bei der Suche hat im Vergleich zu früher zwar Fortschritte gemacht, ist aber bei weitem noch nicht so weit entwickelt, wie mancher es vielleicht vermutet.
Stellt Euch aber auch die Frage, welche Absichten ein Nutzer mit seiner Suchanfrage verfolgt. Versucht, seine Absichten bestmöglich zu befriedigen, so dass er möglichst genau das auf Euren Seiten findet, wonach er letztendlich gesucht hat.