Logfile-Analyse: Wenn Google bei Crawling & Indexierung eurer Webseiten Probleme macht

Das erwartet euch in diesem Beitrag

  • Was ist eine Logfile-Analyse?
  • Wie führt ihr eine Logfile-Analyse durch?
  • Welche Anwendungsfelder gibt es?

Eine Logfile-Analyse hilft euch zu verstehen, was Google sieht. Da der Google-Crawler jede Änderung der Website erst erkennen muss, ist es wichtig zu wissen, ob der Bot die geänderten oder neuen Unterseiten überhaupt schon gecrawlt hat. Das Crawling dient der Entdeckung und ist der Anfang der Indexierung.

Durch die Analyse seht ihr, ob Google wichtige Seiten anschaut oder aber viele unwichtige Unterseiten (z. B. Parameterseiten oder doppelte Seiten) crawlt. Euer Ziel ist es, dass Google möglichst oft die Seiten anschaut, die ihr im Google-Index haben wollt.

Das Crawlverhalten an sich ist kein Rankingfaktor. Das häufige Crawlen indexierter Unterseiten garantiert, dass Google

  1. Änderungen indexiert und
  2. die Relevanz wichtiger Unterseiten versteht.

Eine kurze Erklärung zum Vorgehen von Google liefert der Beitrag „Verarbeitung von Informationen in der Google-Suche“.

Wer braucht eine Logfile-Analyse?

Es gibt viele gute Gründe für eine Logfile-Analyse. Die typischsten sind:

  • Eure Page-Title werden nur langsam von Google übernommen?
  • Eure Seite verlinkt viele URLs mit Parameter u?
  • Ihr habt viele Seiten im Index, die ihr gar nicht kennt? Oder schlimmer: Ihr wollt Seiten im Index haben, diese tauchen aber nicht auf?
  • Ihr wollt wissen, welche 404-Fehlerseiten Google wirklich anschaut?

Bei diesen Problemen hilft euch die Logfile-Analyse. Damit findet ihr heraus, wie oft Unterseiten von Google aufgerufen werden. Und dadurch entdeckt ihr Fehler und könnt unnötig gecrawlte Unterseiten finden.

Wichtig: Grundsätzlich sind Logfile-Analysen für „kleine Seiten“ nicht sehr wichtig, weil Google diese in der Regel komplett crawlt. Außerdem hat Google weniger Probleme, wenn die Seite Serveranfragen schnell ausführen kann. John Mueller von Google hat sich 2019 via YouTube zum Thema Logfile-Analyse geäußert.

Ich empfehle, intensivere Logfile-Auswertungen erst bei einer Seitengröße ab 50.000 URLs durchzuführen – oder wenn die oben genannte Probleme auftauchen.

Was sind Logfiles?

Eine Logfile (dt. Logdatei) ist eine Datei, auf der alle Serverzugriffe protokolliert sind. Die Dateien werden jeden Tag erstellt und liegen auf eurem Webserver. Jeder Zugriff (Request) wird als ein Eintrag (Hit) mit der Serverzugriffszeit in einem Protokoll gespeichert.

Zusätzlich findet ihr für jeden Eintrag folgende Eigenschaften:

  • IP/DNS-Adresse des zugreifenden Users/Bots
  • Zugriffszeit
  • Befehl (GET/POST)
  • Aufgerufene URL: Dateiname und -pfad
  • Übertragungsprotokoll (http/1.0, http/1.1, /h2.)
  • Serverantwort (Statuscode, z. B. 200, 301, 404 etc.)
  • Referrer: vorher besuchte URL (optional)
  • Übertragene Bytes (optional)
  • User Agent mit Browser, Betriebssystem
  • Bei Bots werden im User Agent weitere Informationen weitergegeben (z. B. „Googlebot/2.1.”)

Wie sieht ein Logfile-Eintrag aus?

Die oben genannten Informationen findet ihr in folgendem Muster:

66.249.156.642 – – [17/Dec/2019:10:10:05 -0400] “GET /seo-trends-2019-zukunft/ h2” 200
“Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”

Es gibt so viele Einträge in der Logfile, wie ihr Serveranfragen pro Tag habt. Selbst bei mittelgroßen Websites können die Zugriffe fünfstellige Werte an einem Tag übersteigen. Daher müsst ihr die Daten bearbeiten.

Dazu gehören verschiedene Programme, auf die wir später eingehen. Außerdem ist es wichtig, die Einträge zu filtern und zu aggregieren, um die Daten richtig einschätzen zu können.

Wie filtere ich die Anfragen des Googlebots heraus?

Die Logfile-Analyse kann nicht nur für die Suchmaschinenoptimierung genutzt werden. Die Logdateien zeigen euch die Zugriffe aller Besucher an. In diesem Beitrag steht die Optimierung für Google jedoch im Vordergrund.

Die verschiedenen Googlebots hinterlassen im User Agent den Eintrag „Googlebot“ oder „Googlebot Smartphone“. Dies ist daher der erste Filter, den ihr setzen solltet. Allerdings kann jeder Benutzer mit einem Plugin seinen User Agent mit dem Eintrag „Googlebot“ anreichern. Insofern reicht der Filter nicht aus, wenn ihr nur die Suchmaschine aus Mountain View analysieren wollt.

Google crawlt (meist) mit einer gewissen IP. Diese fängt für gewöhnlich mit 66.249… an. Damit könnt ihr den Googlebot verifizieren und diese IP als zweiten Filter benutzen.

Wir wissen nun, was die einzelnen Logfile-Einträge sind und wie ihr die Requests des Googlebots herausfiltern könnt. Wie können die Einträge ausgewertet werden?

Welchen Umfang haben Logfiles?

Eine Webseite mit 30.000 Unterseiten kann alleine von Google bis zu 40.000 Requests pro Tag erhalten. Vorher müssen die Requests anderer Nutzer und fremder Bots herausgefiltert werden.

Die Zugriffszahlen für größere Zeiträume (z. B. ein Monat oder mehr) können schnell in die Millionen gehen. Aus diesem Grund kommt das beliebte Microsoft Excel schnell an seine Grenzen, weil Excel solche Datenmengen nicht effektiv bearbeiten kann.

Welche Tools helfen bei der Logfile-Auswertung?

Ich stelle euch nun ein paar Tools, die euch helfen, die Logfiles auszuwerten:

1. Microsoft Excel

Wie bereits erwähnt, stößt Excel bei der Auswertung der Logfiles irgendwann an seine Grenzen. Für kleinere Analysen (bis zu 100.000 Einträgen) reicht das Datenverarbeitungsprogramm allerdings aus.

Eine gute Anleitung, wie ihr Excel mit dem VBA-Modul für eine Analyse vorbereitet, findet ihr bei Builtvisible.

2. Screaming Frog Log File Analyser

Vielleicht kennt ihr den Screaming Frog SEO Spider. Der englische SEO-Tool Anbieter bietet seit einigen Jahren den Log File Analyser an. Bei LEAP/ benutzen wir das Tool ebenfalls. Der Kostenpunkt liegt bei jährlich knapp 100 Euro und ist damit erschwinglich. Ihr könnt auch eine kostenlose Testversion herunterladen.

Was nimmt euch der Log File Analyser ab? Im Grunde ist er eine riesige Filtermaschine. Die Logfile-Dateien werden per Drag & Drop oder Upload eingespielt. Danach bereitet das Programm die Daten nach verschiedenen Kriterien auf: IP, User Agent (für euch wichtig: Googlebot), Status Code und Anzahl der Einträge pro Tag.

Ihr könnt die Daten mit einem normalen Screaming Frog SEO Spider Crawl verbinden. Der Nachteil ist, dass das Programm bei zu großen Datenmengen euren Arbeitsspeicher stark beansprucht und gegebenenfalls nicht mehr reagiert.

Screaming Frog Log File Analyser Version 3.0 (Screenshot).

Tipp: Screaming Frog hat auf seiner Seite SEO-Guides, damit die Daten von verschiedenen Servervarianten (Apache, Amazon etc.) richtig verstanden werden können.

3. Deepcrawl

Seit 2017 bietet Deepcrawl eine Integration von Logfiles an. Das Tool Deepcrawl ist zusätzlich ein echter Crawler und bewertet neben den Logfiles den Code und Inhalt eurer Seite. Ihr könnt somit sehr weitreichende Analysen durchführen. In dem userfreundlichen Interface seht ihr auf einen Blick, wie oft indexierte Seiten von Google gecrawlt werden. Damit spart ihr euch den Umweg, die Logfile-Analyse mit anderen Daten anzureichern.

Deepcrawl-Logfile-Auswertung (Screenshot).

Ein weiterer Unterschied zu Screaming Frog ist, dass Deepcrawl kein Programm, sondern eine Website ist. Dadurch wird euer PC nicht so stark belastet.

Dieser Service hat natürlich seinen Preis, der sich auf die Größe der Website bezieht. Für bis zu 10.000 angeschauter URLs zahlt ihr 120 Euro pro Jahr. Bei großen Seiten steigt der Preis deutlich an.

4. Elasticsearch, Logstash, Kibana (ELK)

Die bis hierhin vorgestellten Lösungen bieten die Vorteile, dass euch die Datenverarbeitung abgenommen wird und ihr auf einfache Softwarelösungen zurückgreifen könnt.

Wenn ihr allerdings ein eigenes System aufbauen möchtet, gibt es die Option auf Kibana und das ELK-Stack zurückzugreifen:

  • In Elasticsearch werden die Daten gespeichert und bearbeitet.
  • In Logstash werden eure Serverdateien aggregiert.
  • In Kibana könnt ihr eure Statistiken visualisieren und ein Dashboard bauen.

Der Aufbau des ELK-Stacks (Screenshot).

Mit Kibana & Co. habe ich bereits gute Erfahrungen sammeln können. Das Vorgehen bringt  folgende Vorteile:

  • Ihr könnt riesige Datenvolumen verarbeiten.
  • Ihr könnt ohne großen Programmieraufwand eure eigenen Queries eingeben und Dashboards aufbauen.
  • Ihr greift direkt auf eure Serverlogs zu, ohne lästige Importe
  • Die Daten aktualisieren sich praktisch von selbst.

Kibana-Dashboard für die Zugriffe auf einzelne Verzeichnisse (Screenshot).

Jetzt näher auf die Installation des ELK-Stack einzugehen, würde den Rahmen dieses Beitrags sprengen. Hier deshalb zwei Quellen für die Installation und Anregungen für Dashboards in Kibana.

Anwendungsfelder der Logfile-Analyse

Abschließend stelle ich euch noch drei Anwendungsfelder für die Logfile-Analyse vor.

Beispiel 1: Javascript & URL-Crawling

Bei modernen Websites werden oftmals verschiedene Elemente wie die Navigationsmenüs oder die Filterseiten mit unterschiedlichen Javascript-Anwendungen nachgeladen. Manchmal wird das von einem SEO-Manager bewusst gemacht, um die Links zu verstecken, manchmal wählt die IT-Abteilung aus anderen Gründen diesen Weg.

Nun ist aber die interne Verlinkung bei größeren Seiten für den SEO-Erfolg sehr wichtig. Deshalb solltet ihr unbedingt prüfen, ob Google eure Javascript-Konstruktion versteht. In den Logfile-Protokollen sehr ihr, ob diese Seiten von der Suchmaschine gecrawlt werden und wie oft.

Beispiel 2: 404-Fehler

In der Google Search Console oder eurem normalen Crawling-Tool (z. B. Screaming Frog) werden 404-Seiten angezeigt. Obwohl Google sagt, dass 404-Seiten selbst kein Problem darstellen, wollen unerfahrene SEOs diesen Fehler oftmals unbedingt beheben.

Status-Code-Analyse in Kibana (Screenshot).

Durch die Analyse könnt ihr einschätzen, wie oft Google die Seiten mit einem 404-Statuscode wirklich anschaut. Vielleicht sind die alten 404-Seiten aus Sicht von Google im Grunde gar nicht relevant. Dann braucht ihr bis auf einen Check der externen Links keine weiteren Maßnahmen ergreifen.

Beispiel 3: Crawling-Häufigkeit

Mit der Analyse seht ihr, in welchen Intervallen eine URL vom Googlebot aufgerufen wird. Zusätzlich könnt ihr prüfen, ob ähnliche URLs (kanonisierte URLs) ebenfalls gefunden werden.

Wenn sich Produkte häufig ändern oder viele neue (News)-Artikel erstellt werden, sollten diese möglichst regelmäßig gecrawlt werden. Sonst erkennt Google die Änderungen nicht. Wenn das nicht der Fall ist, müsst ihr die folgenden Maßnahmen ergreifen, damit die wichtigen Seiten gefunden und öfter angeschaut werden:

  1. Eine klare interne Verlinkungsstruktur aufbauen und
  2. URLs vor Google mit Javascript maskieren oder blocken.

Fazit: Logfiles für die Suchmaschinenoptimierung nutzen

Die Logfile-Analyse ist wichtig, wenn ihr verstehen wollt, wie Google eure Website betrachtet. Sie hilft euch, wenn ihr für eine große Seite verantwortlich seid oder auf die eingangs geschilderten Probleme trefft.

Die im Beitrag vorgestellten Tools reichen aus, um belastbare Einschätzungen treffen zu können und auf dieser Basis dafür zu sorgen, dass Google vor allem die Seiten im Blick hat, die indexiert werden sollen.

Der Aufwand lohnt sich jedoch erst bei größeren Seiten. Also muss sich nicht jeder Blogger oder kleinere Shop mit weniger als 300 Produkten diese Mühe machen.

Vielleicht interessiert euch ja auch unser Beitrag “hreflang: Das 1×1 für internationale Suchmaschinenoptimierung“? Darin lernt ihr, wie ihr Google & Co. mitteilt, in welcher Sprache und in welchen Ländern einzelne Websites angezeigt werden sollen.
Über den Autor

Patrick Deinzer

Redakteur
Nach meinem Studium der Geschichte war ich als In-House SEO bei BOOK A Tiger und anschließend bei Contorion tätig. In beiden Stationen habe ich verschiedene Bereiche der SEO-Landschaft kennengelernt. Nun berate ich die Kunden der Agentur LEAP/ als SEO Consultant und verbessere ihren organischen Traffic.