Index-Diät – was es bringt und wie es geht

Das erwartet euch in diesem Artikel

  • Was ist eine Index-Diät?
  • Welche Voraussetzungen müssen gegeben sein?
  • Wie müsst ihr dabei vorgehen?

Dieser Beitrag entstand in Zusammenarbeit mit Vanessa Ostner und Maik Schindler.

Das Thema Index-Diät ist aktuell in aller Munde. Und das ist nicht verwunderlich – denn durch den Content-Hype wurden so viele Inhalte erstellt, dass irgendwann eine Übersättigung eintreten musste. Es wurde (und wird immer noch) einfach so viel Content veröffentlicht, dass gar nicht alles einen Mehrwert für Besucher oder Suchmaschinen bieten kann.

Was ist die Ausgangssituation?

Beim Thema Content ist es wie bei allen anderen Hypes auch. Was als sinnvolle Neuerung startet, wird dadurch, dass immer mehr Menschen auf den Zug aufspringen und auch ein Stück vom Kuchen abhaben wollen, ad absurdum geführt. Und so wurde Content vom King zum Allheilmittel – und die Qualität blieb dabei oft auf der Strecke. Auch das Kalkül, mithilfe dieser Inhalte für alle möglichen und unmöglichen Suchbegriffe und Kombinationen gefunden zu werden, ging nur in wenigen Fällen wirklich auf.

Besonders, seit Google mit Panda und Co. auch ein Augenmerk auf die inhaltliche Qualität des Contents hat, ist dieses Vorgehen nun wirklich nicht mehr zu empfehlen. Oft führt eine solche Nutzung von Inhalten einfach zu einem langsamen Tod in den Suchergebnissen. Die „viel hilft viel“ Seiten, die zu allem etwas zu sagen haben, sind hier ein gutes Beispiel:

Screenshot: Der langsame Verfall einer Website

Abb. 1: Slow Death einer Seite mit massiven Problemen im Hinblick auf Thin Content und Near Duplicate Content.

Doch was könnt ihr tun, um dafür zu sorgen, dass all die nutzlosen Inhalte – von Duplicate Content bis hin zu den Textbroker 2-Sterne-Texten – euren Erfolg in den SERPs nicht gefährden? Zuallererst solltet ihr sicherstellen, dass nur die Seiten in den Index kommen, die auch wirklich für die Suche wichtig sind. Doch welche wären das?

Bei Online-Shops sind die für die Suche relevanten Seiten die Startseite, die Kategorieseiten, die Sub-Kategorieseiten, die Produktseiten und  ggf. auch die Themenseiten. Bei Publisher-Seiten sind die Startseite, die Themenkategorien, die Sub-Kategorien, die Artikel, die  Medien-Inhalte (wie Videos oder Podcasts) und die langen Inhalte (wie PDFs und Whitepaper) wirklich wichtig.

Im Gegensatz dazu sind folgende Seiten in den meisten Fällen nicht für die Suche relevant:

  • Suchergebnisseiten
  • Filterseiten, Sortierungen und ähnliche Seitentypen
  • Duplikate
  • dünne Inhalte
  • leere Seiten

Sicher kennt auch ihr viele Websites, die Suchergebnisseiten oder Duplikate in den Index schieben. Das zeigt, warum das Thema Index-Diät immer relevanter wird – und diese Entwicklung spiegelt sich auch in den Programmen der einschlägigen Konferenzen wider.

Screenshot: Das Programm der nächsten Campixx

Abb. 2: Angekündigter Vortrag aus dem Hause OTTO zur SEO CAMPIXX 2018.

Wann solltet ihr eine Index-Diät ansetzen?

Grundsätzlich gibt es zwei Kernprobleme, die sich aus einer Masse an schlechten Inhalten ergeben:

  1. Google (und jede andere Suchmaschine auch) muss alle vorhandenen Dokumente crawlen, um sie zu indexieren.
  2. Google (und jede andere Suchmaschine auch) muss die indexierten Dokumente auf ihre Relevanz hin analysieren, um sie in der Suche ausspielen zu können.

Wenn ihr also viele „wertlose“ Inhalte anbietet, verschwendet ihr wichtige Ressourcen. Im Endeffekt lenkt ihr die Crawler damit von euren wirklich guten Inhalten ab. Diese werden dann vielleicht nicht schnell genug gecrawlt und indexiert. Außerdem kann es passieren, dass die Masse an schlechten Inhalten die Relevanz eurer guten Inhalte im Index verwässert.

Dazu ein Beispiel:

Ihr bietet einen Artikel zum Thema “Indexbereinigung” an. Dieser soll entsprechend zum Keyword “indexbereinigung” ranken. Der Artikel wird über verschiedene Themenseiten verlinkt und dadurch über parametisierte URLs erreichbar:

  • de/indexbereinigung
  • de/indexbereinigung?quelle=tehmenseite-a
  • de/indexbereinigung?quelle=tehmenseite-b
  • de/indexbereinigung?quelle=tehmenseite-c
  • de/indexbereinigung?quelle=tehmenseite-d

Die Frage ist nun: Welches dieser fünf Dokumente ist das korrekte und wichtige? Denn faktisch habt ihr fünf Artikel mit identischen Inhalten. Wenn Google sich nun nicht für eine Version entscheiden kann, wird sich die Maschine einen anderen Inhalt aussuchen. Da wäre es doch deutlich besser, wenn ihr ein wirklich starkes Dokument hättet.

Wie könnt ihr “Überschuss” identifizieren?

Wie könnt ihr es also schaffen, die überschüssigen Seiten zu identifizieren? Nun, hier solltet ihr am besten in mehreren Schritten vorgehen.

1. Schritt: Die Site-Abfrage

Für einen ersten Überblick könnt ihr eine Site-Abfrage in Google durchführen. Entweder mit „site:Domain“ oder mit „site:Thema“. Doch Obacht: Die Site-Abfrage ist nur eine Schätzung und liefert keinen hundertprozentig zuverlässigen Einblick in die tatsächliche Anzahl der indexierten Seiten.

Screenshot: Site-Abfrage zu Wikipedia.de

Abb. 3: Die Site-Abfrage der deutschen Wikipedia bringt etwa 4 Millionen indexierte Dokumente zum Vorschein.

Screenshot: Zeitabfrage zum Thema Angela Merkel bei Wikipedia.de

Abb. 4: Die Site-Abfrage der deutschen Wikipedia nach „Angela Merkel“ gibt etwa 31 indexierte Dokumente zurück.

Screenshot: Die Google SERPs zur Suche nach Angela Merkel

Abb. 5: In der Google-Suche nach „Angela Merkel“ rankt Wikipedia wirklich super.

Dieses Beispiel ist natürlich erst einmal etwas konstruiert, da Wikipedia nicht nur wegen der Art der Indexierung gut rankt. Die Seite hat unter anderem auch einen hohen Trust-Bonus. Näher an der Wirklichkeit wäre da folgendes Beispiel.

Screenshot: Site-Abfrage zu Conrad.de

Abb. 6: Conrad.de hat circa 421.000 Dokumente im Index.

Screenshot: Siteabfrage zum Thema All-in-One PC bei Conrad.de

Abb. 7: Davon behandeln, sofern alle Titel gut gepflegt sind, ca. 258 das Thema „All-in-One PC“. Dabei handelt es sich um Produktseiten, die gut für die Marke-Typ-Kombination ranken können.

Screenshot: Site-Abfrage zum Plural von All-in-One PC

Abb. 8: Drei Dokumente verwenden den Plural. Dabei handelt es sich unter anderem um eine Kategorieseite, die sich hervorragend für das Ranking auf generellere Abfragen eignet.

2. Schritt: Der genaue Blick auf die Performance

Hierbei müsst ihr vor allem eure Sichtbarkeit analysieren. Und zwar nicht nur die der gesamten Domain, sondern auch auf Verzeichnis-Ebene. Analysiert also die indexierten URLs auf dieser Ebene und gleicht sie mit den rankenden URLs ab. Schaut euch zudem die Traffic-Daten an, um die erkennen, welche Seiten überhaupt regelmäßig besucht werden.

3. Schritt: Klassische „Opfer“ identifizieren

Hier wird es Zeit, tiefer in eure Website einzusteigen. Lasst einen Crawl über die Seite laufen und macht euch mit SEO-Tools auf die Suche nach folgenden Indikatoren, die auf Ausschussware hinweisen:

  • doppelte Seitentitel
  • doppelte Descriptions
  • doppelte H1 Überschriften
  • Ranking-Dopplungen oder -Fluktuationen (diese findet ihr z.B. mit dem Serplorer oder durch eigene Search Console Exporte)
  • Gibt es URLs, die sich zu bestimmten Rankings abwechseln? Sind diese inhaltlich gleich?
  • Parameter-URLs prüfen
  • Paginierung prüfen
  • Filter prüfen (werden die Features indexiert und braucht man die entstandenen Seiten im Index?)
  • Blogs (Tag-Seiten, Archiv-Seiten, Kategorie-Seiten und deren Paginierungen)

4. Schritt: Die Logfile-Analyse

Bei der Logfile-Analyse handelt es sich um ein wirkliches Expertenthema. Sie war in der Zeit vor Google Analytics das Mittel der Wahl, um den Traffic auszuwerten. Mit der Zeit wurde sie allerdings im Vergleich einfach zu aufwändig. Dank neuer Tools und leistungsfähiger Hardware ist sie nun aber schon seit einiger Zeit wieder im Trend. Sie ist in der Regel vor allem interessant, um folgende Fragen für größere Seiten zu beantworten:

  • Welche Seiten crawlt der Google-Bot?
  • Wie oft crawlt er diese Seiten?
  • Sind alle Seiten wichtig?
  • Sind “Leichen” dabei?
  • “Verrennt” sich der Bot (z.B. in Paginierungen)?

Umgang mit Überschuss

Habt ihr nun die Seiten identifiziert, dir ihr aus dem Index entfernen möchtet, so stellt sich natürlich die Frage, wie ihr das anstellen könnt. Zunächst solltet ihr nicht kopflos das Noindex-Tag anwenden. Denn dies beseitigt nur das Symptom, nicht aber das eigentliche Problem.

Inhalte konsolidieren

Das Konsolidieren von Inhalten ist die klassische Methode für Publisher und Magazine. Dabei identifiziert ihr durch internes Tagging sowie die Analyse von Titles und Überschriften ähnliche und sehr ähnliche Inhalte und führt sie zusammen – zum Beispiel auf einer Übersichtsseite. Im Bestfall nutzt ihr die Gelegenheit und überarbeitet die Inhalte direkt noch einmal.

Wie ihr das genau anstellen könnt, verdeutlicht das folgende Beispiel:

Screenshot: Site-Abfrage zum Thema Bin ich schwanger bei Gutefrage.net

Abb. 9: Gutefrage.net bietet zum Thema „Bin ich schwanger“ knapp 50.000 Dokumente an.

Screenshot: Site-Abfrage zum Thema bin ich schwanger bei Erdbeerlounge.de

Abb. 10: Zum gleichen Thema gibt es bei Erdbeerlounge.de lediglich etwa 1390 Ergebnisse.

Screeenshot: Die SERPs zur Suchanfrage "bin ich schwanger"

Abb 11: In den SERPs punktet Erdbeerlounge mit der Themenseite allerdings deutlich besser als Gutefrage.net.

Screenshot: Die Rankings im Vergleich

Abb. 12: Im Vergleich rankt Erdbeerlounge daher deutlich stabiler.

Wenn ihr eure Inhalte konsolidiert, dürft ihr allerdings nie die vier zentralen SEO-Punkte vergessen:

  1. Ursprüngliche URLs auf die Zusammenfassung weiterleiten (301 Redirect)
  2. Interne Links anpassen
  3. externe Links anpassen lassen
  4. Sitemaps bereinigen (weitergeleitete URLs raus, neue URL rein)

Inhalte kanonisieren

Manchmal wird es euch jedoch nicht weiterbringen, eure Inhalte zu konsolidieren. Und zwar dann, wenn ihr viele 1:1 Duplikate auf eurer Seite habt. Dann (und nur dann) lohnt es sich, die Inhalte zu kanonisieren. Das gilt besonders bei der Indexierung von Inhaltsalternativen wie Print-Versionen, Mobilversionen oder PDFs.

Das würde dann folgendermaßen aussehen:

  • Wir haben
    1. https://www.beispielseite.de/original-dokument
    2. https://www.beispielseite.de/original-dokument-print-version
    3. https://www.beispielseite.de/original-dokument-kurzversion
    4. https://mobil.beispielseite.de/original-dokument-mobilversion
  • Kanonisierung im Quelltext von HTML Dokumenten:

<link rel=“canonical“ href=“https://www.beispielseite.de/original-dokument“ />

  • Wir haben:
    1. https://www.beispielseite.de/original-dokument
    2. https://www.beispielseite.de/original-dokument-pdf-version.pdf
  • Kanonisierung über Header:
    1. bei Abruf von https://www.beispielseite.de/original-dokument-pdf-version.pdf:

HTTP/1.1 200 OK
Date: Thu, 26 Oct 2017 10:44:59 GMT
Link: <https://www.beispielseite.de/original-dokument>; rel=“canonical“
X-SP-TE: 6151
X-Robots-Tag: index, follow, noarchive, noodp
Content-Type: text/html;charset=UTF-8

(Beispiel-Header)

Inhalte von Crawling & Indexierung ausschließen

Um die gewünschten Inhalte einfach nur vom Crawling und Indexing auszuschließen, könnt ihr mit der robots.txt arbeiten:

<meta name=“robots“ content=“noindex, follow“>

Das behebt aber leider nicht das grundsätzliche Problem. Viel besser ist es, eine facettierte Suche mit PRG Pattern einzusetzen. So vermeidet ihr, dass Crawler die aufgerufenen URLs „sehen“ und crawlen können. Der Crawler bekommt dann lediglich die „Originalseite“ ausgespielt – und die Nutzer merken von alledem nichts.

Beim PRG Pattern müsst ihr jedoch beachten, dass es lösungsabhängig ist, ob Tabbed Browsing unterstützt wird. Außerdem müsst ihr die SEO-relevanten Filtervarianten vom PRG ausnehmen. Dabei handelt es sich zum Beispiel um Produkt-Farbe-Kombinationen mit hohem Suchvolumen.

Radikalkur: Inhalte deindexieren

In vielen Fällen helfen jedoch all diese Möglichkeiten auch nicht wirklich weiter. Wenn ihr zum Beispiel nicht relevante Inhalte aus grauer Vorzeit im Index habt, bringt es euch nichts, diese zu kanonisieren oder zu konsolidieren. Denn welchen Zweck sollen veraltete Produktrezensionen, Profilseiten, Produktseiten, Markenseiten, Themenseiten oder Autorenseiten noch erfüllen?

Macht daher den internen Test und stellt euch drei Fragen:

  1. Ranken die Seiten (noch)?
  2. Haben sie internen und externen Traffic?
  3. Werden sie über die interne Suche gesucht und gefunden?

Solltet ihr hier drei Mal mit nein antworten, so hilft nur noch der Statuscode 410. Um dieses Löschen zu beschleunigen, könnt ihr die entsprechenden URLs in eine externe Sitemap packen. Beobachtet diese dann, bis sie komplett von Google verarbeitet wurde und löscht sie danach wieder. Der letzte Punkt ist nicht zu unterschätzen, denn wenn ihr das Löschen vergesst, wird es viele Fehler in Search Console hageln. 410 gehören nämlich grundsätzlich nicht in die Sitemap.

Und dann?

Nun habt ihr einen Fahrplan, mit dem ihr eure ungeliebten Inhalte verbessern oder loswerden könnt. Doch die Index-Diät ist kein Selbstzweck! Das Ganze bringt euch nur wenig, wenn ihr nicht vorher belastbare Ziele definiert. Dazu gehören

  • das Zusammenführen des gemeinsamen Traffic aller Einzelseiten auf einer Seite,
  • das Zusammenführen der Rankings auf einer URL,
  • die Verbesserung der Rankings,
  • das Dazugewinnen neuer Rankings,
  • die Verbesserung des Crawling und
  • die Verbesserung der Index-Effizienz: Wie viele Seiten ranken und wie viele sind indexiert? Seiten, die nicht ranken, brauchen meist auch nicht indexiert zu sein.

Um sicherzustellen, dass diese Ziele auch erreicht werden, solltet ihr natürlich im Nachgang die Log-Files überwachen und auf Veränderungen hin prüfen. Zudem solltet ihr auch die Rankings der neuen bzw. übrigen Seiten im Blick haben und den Traffic auf den betroffenen URLs beobachten. Und zur Sicherheit kann es auch nicht schaden, in regelmäßigen Abständen die Weiterleitungen  zu überprüfen.

Dann könnt ihr es schaffen, dass eure Sichtbarkeit ebenso ansteigt, wie die in den folgenden Beispielen. Die Marker zeigen dabei das Datum an, an denen die überschüssigen URLs abgebaut wurden. Die Vergleichswerte in den Tabellen sprechen eine deutliche Sprache. Viel Spaß beim Nachmachen.

Screenshot: Sichtbarkeitsentwicklung einer .de Domain nach Index-Diät

Screenshot: Deutlich weniger indexierte Seiten

Abb. 13: 18.000 indexierte Seiten statt mehr als 380.000 – und der Erfolg stellt sich ein.

Screenshot: Deutlich weniger indexierte Seiten

Abb. 14: 10.000 anstatt 200.000 indexierte Seiten führen zu einem spürbaren Anstieg der Sichtbarkeit.

Über den Autor

Sebastian Adler

Redakteur
Den Einstieg in die Online-Marketing-Welt fand ich 2011 bei Barketing im Offpage-Bereich. 2013 wechselte ich dann zu Searchmetrics in die SEO-Beratung, um dort den Kunden bei ihren SEO-Strategien mit Rat und Tat zur Seite zu stehen. Nach einem kurzen Ausflug ins Produktmanagement führte mich mein Weg im Sommer 2017 (zurück) zu LEAP/, wo ich nun wieder als SEO-Consultant tätig bin.
Kommentare