« zurück zum eMinded Magazin

Indexierung im SEO

Die Steuerung der Indexierung ist nach wie vor eine enorm wichtige Aufgabe in der Suchmaschinenoptimierung. Das Ziel hierbei ist, nur erwünschte Seiten von Google indexieren zu lassen und dabei Duplikate zu vermeiden.
Es existieren dafür verschiedene technische Werkzeuge, mit welchen Ihr die Indexierung steuern könnt. Werden diese Werkzeuge allerdings miteinander verwechselt oder falsch eingesetzt, kann das dazu führen, dass die gewollte Wirkung verloren geht oder sogar negative Signale an die Suchmaschine gesendet werden. In diesem Artikel wollen wir euch zeigen, welche Werkzeuge existieren und für welche Fälle diese eingesetzt werden.

Indexierung im SEO – Inhaltsverzeichnis:

  • Warum ist die Steuerung der Indexierung wichtig?
  • Wie überprüfe ich die aktuell indexierten Seiten?
  • Wie kann die Indexierung beeinflusst und Duplikate vermieden werden?
    • robots.txt
    • Meta-Tag Robots
    • Canonical Tags
  • Kombinationen von diesen Werkzeugen
  • Fazit

Warum ist die Steuerung der Indexierung wichtig?

Hier geht es in erster Linie darum, dem User und der Suchmaschine nur Seiten, welche einen Mehrwert bieten, zur Verfügung zu stellen. Bei Domains sammeln sich aber im Laufe der Zeit immer wieder Seiten ohne Inhalt oder Duplikate an, welche keine Relevanz für den User haben.

Von Duplikaten spricht man vereinfacht gesagt, wenn mehrere inhaltlich sehr ähnliche oder exakt gleiche Seiten mit unterschiedlichen URLs existieren. Das erschwert für Google das Crawling und die Bewertung der Seiten und kann zu einem schlechteren Ranking bzw. einem unerwünschten Ranking des Duplikates anstatt der gewünschten Original Seite führen.

Gleichzeitig gibt es Seiten oder sogar ganze Bereich auf der Domain, welche zwar keine Duplikate darstellen, aber dennoch nicht im Index und damit in der Google Suche erscheinen sollen. Beispiele hierfür können Seiten im Zahlungsprozess, Serviceseiten oder auch Verzeichnisse mit Bildern sein.

Wie überprüfe ich die aktuell indexierten Seiten?

Um die aktuell indexierten Seiten zu überprüfen und um mögliche Problematiken zu identifizieren, kann die Site-Abfrage von Google verwendet werden. Um eine Site-Abfrage durchzuführen, müsst Ihr Folgendes in die Google Suche eingeben:

„site:www.eure-domain.de“

Als Ergebnis bekommt Ihr nun alle Seiten angezeigt, welche sich im Index befinden. Solltet Ihr mehrere Subdomains haben, dann gebt die Domain ohne www. ein, um alle Seiten angezeigt zu bekommen. Achtet bei den Ergebnissen neben den Inhalten der Snippets auch auf URLs mit Parametern und/oder auf Ergebnisse, welche für Euch keinen Sinn ergeben. Natürlich kann bei mehreren Tausend indexierten Seiten nicht jede einzelne überprüft werden. Aber Ihr solltet durch eine erste Analyse einen groben Eindruck von der Qualität der indexierten Seiten erhalten und auch Muster bei möglichen Problemen feststellen können.

Wie kann die Indexierung beeinflusst und Duplikate vermieden werden?

Nun möchten wir die Frage klären, wie die Handhabung bei existierenden Seiten erfolgt. Um das Crawling bzw. die Indexierung zu steuern, werden die folgenden Werkzeuge verwendet:

  • Robots.txt
  • Meta-Tag Robots
  • Canonical Tags

Es gibt neben diesen Punkten natürlich noch andere Mittel, um Seiten kurz- oder langfristig aus dem Index zu bekommen, wie zum Beispiel den Statuscode 410 oder auch Weiterleitungen. Diese beiden Punkte werden aber bei Seiten angewendet, welche nicht mehr existieren, und sollen daher zunächst nicht besprochen werden.

Robots.txt

Aufbau der robots.txt

Nach der Übereinkunft des Robots-Exclusion-Standard-Protokolls liest ein Webcrawler (Robot) beim Auffinden einer Webseite zuerst die Datei robots.txt (kleingeschrieben) im Stammverzeichnis („root“) einer Domain. In dieser Datei kann festgelegt werden, ob und wie die Webseite von einem Webcrawler besucht werden darf. Website-Betreiber haben so die Möglichkeit, ausgesuchte Bereiche ihrer Webpräsenz für (bestimmte) Suchmaschinen zu sperren.

Durch diese Datei sagt Ihr also Google, welche Seiten besucht werden können und welche Seiten nicht besucht werden dürfen. Eine Grundstruktur könnte beispielsweise so aussehen:

User-agent: *
Disallow: /wishlist/
Disallow: /admin.html

Sitemap: https://www.eure-domain.de/sitemap/sitemap_index.xml

Mit diesem Eintrag in der Robots.txt erlaubt Ihr den Suchmaschinen (User-Agent) bis auf die beiden ausgeschlossenen Verzeichnisse alle Seiten zu besuchen. Außerdem wird auch der Pfad der Sitemap angezeigt, was den Suchmaschinen ein schnelleres Verständnis der Websitearchitektur ermöglicht.

Es muss hier allerdings erwähnt werden, dass ein Ausschluss bestimmter Seiten oder Verzeichnisse in der robots.txt nicht die grundsätzliche Indexierung und somit das Erscheinen in den Suchergebnissen verhindert. Jedoch halten sich heute die meisten Suchmaschinen an die Angabe in der Datei.

Verwendung der robots.txt

Ein Eintrag in der Robots.txt eignet sich hervorragend, um komplette Seitenbereiche bzw. Verzeichnis vom Crawling auszuschließen. Ihr solltet aber Vorsicht walten lassen und dennoch den Ausschluss nicht zu breit vornehmen. Solltet Ihr gleichzeitig Google Ads schalten, müsst Ihr sicherstellen, dass zumindest der Ads-Crawler eine Ausnahme erhält.

Meta-Tag Robots

Aufbau und Variationen der Meta-Tags

Der oben genannte Meta-Tag dient dazu, das Verhalten des Crawlers bzw. Google Bots (sowie der anderen Web-Crawler) zu steuern. Es existieren hierbei vier Werte, die auch miteinander kombiniert werden können:

• „index“: Seite wird indexiert
• „noindex“: Seite wird nicht indexiert
• „follow“: Den Links auf der betreffenden Seite folgen
• „nofollow“: Den Links auf der betreffenden Seite nicht folgen

Wird auf einer Website das Tag nicht gesetzt, so wird die betreffende Seite durch den Crawler indexiert und allen Links wird gefolgt. Das entspricht daher diesem Tag:

<meta name=“robots“ content=“index, follow“>

Soll nun eine Seite nicht indexiert, aber den Links gefolgt werden kommt das folgende Tag zum Einsatz:

<meta name=“robots“ content=“noindex, follow“>

Verwendung der Meta Tags

Dieses Tag ist eine sehr strikte Anweisung an Google und kann daher auf allen Seiten, welche nicht in den Index gehören angewendet werden. Beispiele hierfür sind:

  • Ergebnisse der internen Suche
  • Paginierte Seiten

Canonical-Tag

Aufbau des Canonical Tags

Beim Setzen des Canonical-Tags ist es möglich, dem Google-Bot eine bevorzugte Seite (kanonische Seite) bei mehreren Seiten mit sehr ähnlichen bzw. gleichem Inhalt mitzuteilen. Diese Methode wird häufig bei Filterseiten verwendet. Generell empfiehlt es sich, das Canonical-Tag auf allen Seiten zu setzen. Gibt es zu einer Seite keinen Duplicate Content, so verweist das Canonical-Tag auf die Seite, auf der es implementiert ist (als kanonische Seite). Das Canonical-Tag hätte somit folgenden Aufbau:

Kanonische Seite: http://beispiel.de/unterseite1.html

Canonical-Tag: <link rel=“canonical“ href=“http://beispiel.de/unterseite1.html“>

Besteht nun zu dieser Seite eine weitere Seite mit sehr ähnlichem oder identischem Content, so soll das Canonical auf die Ursprungsseite (kanonische Seite) verweisen. Auf dem Duplikat wird dementsprechend das gleiche Canonical-Tag wie auf der kanonischen Seite ausgewiesen. Das entspricht diesem Aufbau:

Seite (Duplikat): http://beispiel.de/unterseite1.html?parameter1&parameter2

Canonical-Tag: <link rel=“canonical“ href=“http://beispiel.de/unterseite1.html“>

Hierbei muss allerdings erwähnt werden, dass das Setzen dieses Tags nicht zwangsläufig die Indexierung der betreffenden Seiten verhindert. Sollen die Seiten oder Verzeichnisse aus dem Index ausgeschlossen werden, so muss mit dem Meta-Tag „robots“ gearbeitet werden.

Verwendung der Canonical Tags

Dieses Tag eignet sich hervorragend, um Duplikate von Anfang an zu vermeiden oder bestehende Duplikatsproblematiken in den Griff zu bekommen. Es findet vor allem bei den folgenden Punkten Anwendung:

  • Filterseiten
  • Ergebnisseiten der internen Suche

Kombinationen dieser Werkzeuge

Wie Ihr seht, besitzen die vorgestellten Werkzeuge verschiedene Eigenschaften und Anwendungsbereiche. Es liegt nahe, eine Kombination aus diesen Werkzeugen vorzuschlagen, um sicherzustellen, dass die Seiten auch wirklich nicht im Index erscheinen. Warum das eine schlechte Idee ist, sollen die folgenden zwei Beispiele zeigen:

robots.txt & Canonical-Tag / robots.txt & Meta-Tag „noindex“

• Durch den Eintrag in der robots.txt wird dem Crawler/Spider verboten, den Inhalt der Seite zu crawlen. Aus diesem Grund können alle Tags auf der Seite nicht mehr greifen. Die Seite kann also weiterhin indexiert werden.

Canonical-Tag & Meta-Tag „noindex“

• Während der Canonical besagt, dass zwei Seiten identisch sind, besagt das „noindex“ Tag, dass die Seite nicht indexiert werden soll. Google muss sich dann folgende Frage stellen: Wenn diese Seite nicht indexiert werden soll, dann Ihr Original auch nicht, oder?

Google ist eine Maschine und braucht für die Steuerung der Indexierung klare Anweisungen. Eine Kombination dieser Methoden ist daher nahezu immer ein Fehler!

Fazit

Mit den hier vorgestellten Methoden könnt Ihr einfach und effektiv Duplikate vermeiden und selbst entscheiden, welche Seiten durch Google in den Index aufgenommen werden sollen. Überprüft am besten selbst von Zeit zu Zeit mittels der Site-Abfrage, welche Seiten sich aktuell im Index befinden. Solltet Ihr mehr über diese Methoden erfahren wollen oder weitere Fragen haben sind wir natürlich gerne für Euch da :- )

Teile diesen Beitrag
2 Kommentare
  • Achim Wilms

    14. Januar 2019 at 8:45 Antworten

    Moin,

    erstmal danke für den tollen Artikel. Sehr informativ.

    Ich persönlich nutze auf meiner Seite zum Beispiel das Yoast SEO Plugin mit welchen sich einzelne Seiten oder auch Rubriken gezielt auf „noindex“ einstellen lassen so das diese nicht gecrawlt werden. Auch das Canonical lässt sich damit ganz wunderbar steuern. Ich bin in sachen technischer Skills kein Profi und muss sagen das ich mit dem Tool neben den SEO Aspekten auch viele andere technische Dinge wie u.a. das „noindex“ ganz wunderbar umsetzten kann.

    Ich überprüfe auch regelmäßig mit Hilfe der Site-Abfrage von Google, welche Seiten , Artikel usw. von meiner Webseite im Index sind. Bislang hat durch die Nutzung des besagten Tools alles ganz einwandfrei funktioniert.

    Da ich mich aber mehr und mehr auch mit den technischen Aspekten von Webseiten beschäftige ist euer Artikel für mich sehr hilfreich. Denn so habe ich für diesen teil bereits eine sehr gute Anleitung. Vielen dank dafür.

    Beste Grüße
    Achim

  • Boris

    23. September 2019 at 17:34 Antworten

    Hallo Achim,

    wenn Du mit YOAST eine Seite auf Noindex stellst, dann wird sie aber eben doch gecrawlt. Landet dann aber eben nicht im Index und wird so

    – nicht von Google beachtet
    – nicht in den Suchergebnissen von Google ausgespielt

    Ist aber erreichbar und für den User auch anklickbar.

    Beste Grüße
    Boris

Schreibe einen Kommentar

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.

IMMER AUF DEM LAUFENDEN
Jetzt Newsletter abonnieren
✓Online Marketing-News   ✓Agentur Insights   ✓Business-Tipps
JETZT ANMELDEN
Mit der Anmeldung stimmen Sie der Nutzung Ihrer Daten gemäß unserer Datenschutzerklärung zu.
Sie können sich jederzeit aus dem Newsletter abmelden.
close-link