Google Indexierung: So indexierst Du Deine Website richtig
02.10.2024 | Thyra Hultsch | SEO
Teile diesen Beitrag
Die Steuerung der Indexierung für Google ist nach wie vor eine enorm wichtige Aufgabe in der Suchmaschinenoptimierung (SEO). Das Ziel hierbei ist, nur erwünschte Seiten von Google indexieren zu lassen und dabei Duplikate zu vermeiden. Es existieren verschiedene technische Werkzeuge, mit welchen Du die Seiten im Google Index steuern kannst. Werden diese Werkzeuge allerdings miteinander verwechselt oder falsch eingesetzt, kann das dazu führen, dass die gewollte Wirkung verloren geht oder sogar negative Signale an die Suchmaschine gesendet werden. In diesem Artikel zeigen wir Dir, welche Werkzeuge existieren und für welche Fälle diese eingesetzt werden.
Inhalt
Warum ist die Steuerung der Indexierung für Google wichtig?
Hier geht es in erster Linie darum, dem User und der Suchmaschine nur Seiten, welche einen Mehrwert bieten, zur Verfügung zu stellen. Bei Domains sammeln sich aber im Laufe der Zeit immer wieder Seiten ohne Inhalt oder Duplikate an, welche keine Relevanz für den User haben. Insbesondere bei E-Commerce Seiten verlieren Seiten schnell ihre Aktualität, wenn Produkte ausverkauft, nicht mehr verfügbar sind oder aus dem Sortiment genommen wurden. Passiert dies in großen Mengen, kann Google die Domain dafür abstrafen und die Indexierung der URLs auf ein Minimum reduzieren.
Von Duplikaten spricht man vereinfacht gesagt, wenn mehrere inhaltlich sehr ähnliche oder exakt gleiche Seiten mit unterschiedlichen URLs existieren. Das erschwert dem Googlebot das Crawling und die Bewertung der Seiten und kann zu einem schlechteren Ranking bzw. einem unerwünschten Ranking des Duplikats anstatt der gewünschten Originalseite führen.
Gleichzeitig gibt es Seiten oder sogar ganze Bereich auf der Domain, welche zwar keine Duplikate darstellen, aber dennoch nicht im Index und damit in den Suchanfragen erscheinen sollen. Beispiele hierfür können Seiten im Zahlungsprozess, Serviceseiten, veraltete Seiten oder auch Verzeichnisse mit Bildern sein.
In Zeiten von ChatGPT und Co. solltest Du übrigens unbedingt davon absehen, im großen Stil mithilfe von KI Inhalte zu erstellen und zu veröffentlichen. Um das klarzustellen: Vereinzelt spricht natürlich nichts gegen die Verwendung von KI – allerdings solltest Du von der spamartigen Erstellung von neuen Seiten Abstand nehmen.
Doch warum reagiert Google so empfindlich darauf, wenn Du Deine Indexierung schlecht steuerst oder Spam betreibst? Ganz einfach – es kostet Geld! Im Google Index befinden sich aktuell über 400 Milliarden Dokumente und alleine 200 Milliarden URLs werden von Google täglich aus dem Index entfernt. Die Arbeit und Rechenleistung, die Google für das Crawling durch den Googlebot aufbringen muss, ist enorm. Machst Du hierbei Google mit einer Vielzahl an irrelevanter URLs das Leben schwer, musst Du vielleicht mit einer Retourkutsche rechnen.
Merke: Besonders große Seiten (über 1 Million einzigartige URLs), deren Inhalte sich wöchentlich aktualisieren oder mittelgroße Seiten (über 10.000 einzigartige URLs), die sich täglich ändern, sollten eine strenge Crawling- und Indexierungsstrategie verfolgen.
Werden Deine Seiten nicht indexiert oder es werden die falschen Seiten in den Index aufgenommen? Dann solltest Du selbst bei einer kleinen Domain unbedingt weiterlesen.
Wie überprüfe ich die aktuell indexierten Seiten in Google?
Um die aktuell indexierten Seiten zu überprüfen und um mögliche Problematiken zu identifizieren, kann die sogenannte Site-Abfrage der Google Search verwendet werden. Um eine Site-Abfrage durchzuführen, musst Du Folgendes in die Google-Suche eingeben: „site:www.eure-domain.de“
Als Suchergebnisse bekommst Du nun alle URLs angezeigt, welche sich im Index befinden. Solltest Du mehrere Subdomains haben, dann gib die Domain ohne www. ein, um alle Seiten angezeigt zu bekommen. Achte bei den Ergebnissen neben den Inhalten der Snippets auch auf URLs mit Parametern und/oder auf Ergebnisse, welche für Dich keinen Sinn ergeben. Natürlich kann bei mehreren Tausend indexierten Seiten nicht jede einzelne überprüft werden. Aber Du solltest durch eine erste Analyse einen groben Eindruck von der Qualität der indexierten Seiten erhalten und auch Muster bei möglichen Problemen feststellen können.
Wie kann die Indexierung in Google beeinflusst und Duplikate vermieden werden?
Nun möchten wir die Frage klären, wie die Handhabung bei existierenden Seiten erfolgt. Um das Crawling bzw. die Indexierung zu steuern, werden die folgenden Werkzeuge verwendet:
Robots.txt
Meta-Tag Robots
Canonical Tags
Es gibt neben diesen Punkten natürlich noch andere Mittel, um die Indexierung von Seiten Deiner Website kurz- oder langfristig aufzuheben, wie zum Beispiel den Statuscode 410 oder auch Weiterleitungen. Diese beiden Punkte werden aber bei Seiten angewendet, welche nicht mehr existieren, und sollen daher zunächst nicht besprochen werden.
Robots.txt
Aufbau der robots.txt
Nach der Übereinkunft des Robots-Exclusion-Standard-Protokolls liest ein Webcrawler (Robot) beim Auffinden einer Webseite zuerst die Datei robots.txt (kleingeschrieben) im Stammverzeichnis („root“) einer Domain. In dieser Datei kann festgelegt werden, ob und wie die Webseite von einem Webcrawler besucht werden darf. Website-Betreiber haben so die Möglichkeit, ausgesuchte Bereiche ihrer Webpräsenz für (bestimmte) Suchmaschinen zu sperren.
Durch diese Datei sagst Du also Google, welche Seiten besucht werden können und welche Seiten nicht besucht werden dürfen. Eine Grundstruktur könnte beispielsweise so aussehen:
Mit diesem Eintrag in der Robots.txt erlaubst Du den Suchmaschinen (User-Agent) bis auf die beiden ausgeschlossenen Verzeichnisse alle Seiten zu besuchen. Außerdem wird auch der Pfad der Sitemap angezeigt, was den Suchmaschinen ein schnelleres Verständnis der Websitearchitektur ermöglicht.
Es muss hier allerdings erwähnt werden, dass ein Ausschluss bestimmter Seiten oder Verzeichnisse in der robots.txt nicht die grundsätzliche Indexierung und somit das Erscheinen in den Suchergebnissen verhindert. Jedoch halten sich heute die meisten Suchmaschinen an die Angabe in der Datei.
Tipp: Reiche die Sitemap auch in der Google Search Console ein.
Verwendung der Robots.txt
Ein Eintrag in der Robots.txt eignet sich hervorragend, um komplette Seitenbereiche bzw. Verzeichnisse vom Crawling auszuschließen. Hier solltest Du aber Vorsicht walten lassen und dennoch den Ausschluss nicht zu breit vornehmen. Solltest Du gleichzeitig Google Ads schalten, muss sichergestellt werden, dass zumindest der Ads-Crawler eine Ausnahme erhält.
Meta-Tag Robots
Aufbau und Variationen der Meta-Tags
Der oben genannte Meta-Tag dient dazu, das Verhalten des Crawlers bzw. Google Bots (sowie der anderen Web-Crawler) zu steuern. Es existieren hierbei vier Werte, die auch miteinander kombiniert werden können:
• „index“: Seite wird indexiert. • „noindex“: Seite wird nicht indexiert. • „follow“: Den Links auf der betreffenden Seite folgen. • „nofollow“: Den Links auf der betreffenden Seite nicht folgen.
Wird auf einer Website das Tag nicht gesetzt, so wird die betreffende Seite durch den Crawler indexiert und allen Links wird gefolgt. Das entspricht daher diesem Tag:
<meta name=“robots“ content=“index, follow“>
Soll nun eine Seite nicht indexiert, aber den Links gefolgt werden kommt das folgende Tag zum Einsatz:
<meta name=“robots“ content=“noindex, follow“>
Verwendung der Meta Tags
Dieses Tag ist eine sehr strikte Anweisung an Google und kann daher auf allen Seiten, welche nicht in den Index gehören, angewendet werden. Beispiele hierfür sind:
Ergebnisse der internen Suche
Paginierte Seiten
Canonical-Tag
Aufbau des Canonical Tags
Beim Setzen des Canonical-Tags ist es möglich, dem Google-Bot eine bevorzugte Seite (kanonische Seite) bei mehreren Seiten mit sehr ähnlichen bzw. gleichem Inhalt mitzuteilen. Diese Methode wird häufig bei Filterseiten verwendet. Generell empfiehlt es sich, das Canonical-Tag auf allen Seiten zu setzen. Gibt es zu einer Seite keinen Duplicate Content, so verweist das Canonical-Tag auf die Seite, auf der es implementiert ist (als kanonische Seite). Das Canonical-Tag hätte somit folgenden Aufbau:
Besteht nun zu dieser Seite eine weitere Seite mit sehr ähnlichem oder identischem Content, so soll das Canonical auf die Ursprungsseite (kanonische Seite) verweisen. Auf dem Duplikat wird dementsprechend das gleiche Canonical-Tag wie auf der kanonischen Seite ausgewiesen. Das entspricht diesem Aufbau:
Seite (Duplikat): http://beispiel.de/unterseite1.html?parameter1¶meter2
Hierbei muss allerdings erwähnt werden, dass das Setzen dieses Tags nicht zwangsläufig die Indexierung der betreffenden Seiten verhindert. Sollen die Seiten oder Verzeichnisse aus dem Index ausgeschlossen werden, so muss mit dem Meta-Tag „robots“ gearbeitet werden.
Verwendung der Canonical Tags
Dieses Tag eignet sich hervorragend, um Duplikate von Anfang an zu vermeiden oder bestehende Duplikats-Problematiken in den Griff zu bekommen. Es findet vor allem bei den folgenden Punkten Anwendung:
Filterseiten
Ergebnisseiten der internen Suche
Google Indexierung mit den Tools richtig steuern
Wie Du siehst, besitzen die vorgestellten Werkzeuge verschiedene Eigenschaften und Anwendungsbereiche. Es liegt nahe, eine Kombination aus diesen Werkzeugen vorzuschlagen, um sicherzustellen, dass die Seiten auch wirklich nicht im Index erscheinen. Warum das eine schlechte Idee ist, sollen die folgenden zwei Beispiele zeigen:
• Durch den Eintrag in der robots.txt wird dem Crawler/Spider verboten, ein Crawling der Seite durchzuführen. Aus diesem Grund können alle Tags auf der Seite nicht mehr greifen. Die Seite kann also weiterhin indexiert werden.
Canonical-Tag & Meta-Tag „noindex“
• Während der Canonical besagt, dass zwei Seiten identisch sind, besagt das „noindex“ Tag, dass die Seite nicht indexiert werden soll. Google muss sich dann folgende Frage stellen: Wenn diese Seite nicht indexiert werden soll, dann ihr Original auch nicht, oder?
Google ist eine Maschine und braucht für die Steuerung der Indexierung klare Anweisungen. Eine Kombination dieser Methoden ist daher nahezu immer ein Fehler!
Indexing Probleme bei Google: Was kann ich tun?
Hat Deine Seite ernsthafte Indexing Probleme, kann das an unterschiedlichen Gründen liegen. Prüfe zunächst, ob Du alle Mittel, die wir oben aufgezählt haben, korrekt nutzt. Wir sprechen aus Erfahrung: Ein falsch gesetzter Canonical-Tag und die fehlerhafte Implementierung eines noindex-Tags kommt häufiger vor, als man denkt.
Ergänzend hierzu ist ein Blick in die Google Search Console essenziell! Gibt es zum Beispiel manuelle Maßnahmen oder Google Penalties gegen Deine Website, ist dies der Ort, an dem Du als erstes davon erfährst. Außerdem findest Du ebenfalls in der Search Console unter dem Reiter „Indexierung“ einen guten Überblick darüber, welche Seiten Google indexiert bzw. nicht indexiert und welche Gründe zu dieser Entscheidung führen. Der Vorteil hierbei: die Daten stammen aus einer sicheren Quelle, nämlich direkt von Google selbst.
Möglicherweise liegt der Grund für die Deindexierung aber auch an der Qualität Deiner Inhalte. Hierfür bietet sich die sogenannte „Panda-Diät“ an, um irrelevante Inhalte auszumisten und Altlasten loszuwerden. So kannst Du minderwertige Inhalte abbauen und später strategisch neue und gute Inhalte ausbauen.
Prüfe außerdem Deine interne Verlinkung. Verlinkst Du selbst kaum auf Deine eigenen Inhalte, denkt Google möglicherweise, dass diese nicht relevant sind (falls Google überhaupt ohne jegliche Verlinkungen auf die Seite findet). Denn wenn Du schon nicht selbst auf diese Seite verlinkst – wie wichtig kann sie schon sein?
Falls Du nach Deiner ausführlichen Analyse zuordnen kannst, welche Seiten von dem Indexierungsproblem betroffen sind, kannst Du versuchen, diese thematisch zu clustern und Zusammenhänge zu verstehen. Nutze anschließend die Robots.txt, um Seiten mit geringer Relevanz vom Crawling auszuschließen, damit sich der Googlebot auf die wichtigen URLs fokussieren kann.
Ein durchaus seltener Grund, auf den wir trotzdem gerne hinweisen würden: Hast Du Deine Domain „gebraucht“ gekauft, ist es eventuell möglich, dass diese Domain eine dunkle Vergangenheit hat und bereits von Google für Spam oder andere Gründe abgemahnt wurde. Hier kann auch ein Blick in die das „Internet Archiv“, die WaybackMachine, hilfreich sein.
Fazit: Die Indexierung bei Google ist die Voraussetzung für alle SEO-Maßnahmen
Mit den hier vorgestellten Methoden kannst Du einfach und effektiv Duplikate vermeiden und selbst entscheiden, welche Seiten durch Google in die Indexierung aufgenommen werden sollen. Überprüfe am besten selbst von Zeit zu Zeit mittels der Site-Abfrage, welche Seiten sich aktuell im Index befinden. Solltest Du weitere Informationen benötigen oder noch Fragen haben sind wir als erfahrene SEO Agentur natürlich gerne für Euch da! 🙂
Teile diesen Beitrag
Über den Autor
Thyra Hultsch
SEO & Content Managerin
Thyra’s Traum, Kreativität und Technologie zu vereinen, hat sich bei eMinded als SEO und Content Managerin erfüllt. Neben Websites, spannenden Inhalten und technischen Analysen schlägt ihr Herz außerdem für alle Vierbeiner, gute Musik und den Sport. Findet man sie nicht vor dem Laptop hat man gute Chancen sie im Gym, draußen in der Natur mit ihrem Hund oder auf der Couch anzutreffen.