Indexierung
Indexierung ist der Prozess, bei dem Suchmaschinen Webseiten crawlen und in ihren Index aufnehmen. Crawl Budget, Sitemaps und noindex.
Was ist Indexierung?
Indexierung ist der Prozess, bei dem eine Suchmaschine eine Webseite in ihren Datenbestand (Index) aufnimmt. Nur indexierte Seiten können in den Suchergebnissen (SERPs) erscheinen. Googles Index umfasst Hunderte Milliarden Seiten, organisiert in einer invertierten Indexstruktur, die für jedes Wort alle Seiten listet, auf denen es vorkommt.
Eine Seite, die nicht im Index ist, existiert für die Suchmaschine nicht. Weder Content-Qualität noch Backlinks noch technische Perfektion nützen etwas, wenn Google die Seite nicht kennt oder bewusst ausschließt.
Was ist der Unterschied zwischen Crawling und Indexierung?
Crawling und Indexierung sind zwei getrennte Schritte. Eine gecrawlte Seite ist nicht automatisch indexiert.
-
Crawling: Googles Crawler (Googlebot) navigiert über Hyperlinks durch das Web, ruft den Quellcode einer Seite ab und sendet ihn an das Verarbeitungssystem. Crawling ist der Entdeckungsprozess.
-
Rendering: Google rendert die Seite mit einem headless Chromium-Browser, um JavaScript-generierte Inhalte zu erfassen. Seit 2019 nutzt Google einen Evergreen Renderer, der stets auf der aktuellen Chrome-Version basiert.
-
Indexierung: Google analysiert den gerenderten Inhalt, extrahiert Text, Überschriften, Links, strukturierte Daten und Medien, bewertet die Seite und entscheidet, ob sie in den Index aufgenommen wird.
-
Ranking: Erst bei einer konkreten Suchanfrage werden indexierte Seiten nach über 200 Signalen sortiert und in der SERP ausgegeben.
| Schritt | Was passiert | Ergebnis |
|---|---|---|
| Crawling | Googlebot ruft Quellcode ab | Seite ist entdeckt |
| Rendering | JavaScript wird ausgeführt | Voller Seiteninhalt liegt vor |
| Indexierung | Inhalt wird analysiert und gespeichert | Seite ist im Index |
| Ranking | Indexierte Seiten werden sortiert | Position in den SERPs |
Wie funktioniert der Googlebot?
Der Googlebot ist Googles Web-Crawler. Er besteht aus zwei Varianten.
-
Googlebot Desktop: Simuliert einen Desktop-Browser. Seit der Umstellung auf Mobile-First Indexing (2019-2024) hat diese Variante an Bedeutung verloren.
-
Googlebot Smartphone: Simuliert ein Smartphone. Seit März 2024 crawlt Google alle Websites primär mit dem Smartphone-Crawler. Die mobile Version einer Seite bestimmt, was indexiert wird.
Der Googlebot entdeckt neue Seiten über drei Wege. Erstens: Durch Links von bereits bekannten Seiten. Zweitens: Über eingereichte XML-Sitemaps in der Google Search Console. Drittens: Über die URL-Prüfung in der Search Console, mit der einzelne URLs zur Indexierung angemeldet werden können.
Die Crawl-Frequenz variiert nach Website. Nachrichtenseiten werden mehrmals pro Stunde gecrawlt, kleine Unternehmensseiten vielleicht einmal pro Woche. Wie man versteht, wie Suchmaschinen Inhalte crawlen und indexieren, bildet die Grundlage für gezielte technische Optimierungen.
Was ist Crawl Budget und warum ist es wichtig?
Crawl Budget ist die Anzahl an URLs, die Google innerhalb eines Zeitfensters auf einer Domain crawlt. Es setzt sich aus zwei Komponenten zusammen.
-
Crawl Rate Limit: Die maximale Anzahl gleichzeitiger Verbindungen und Anfragen, die der Googlebot nutzt, ohne den Server zu überlasten. Bei langsamen Servern drosselt Google automatisch.
-
Crawl Demand: Googles Interesse am Crawling einer URL, basierend auf Popularität, Aktualität und dem Verhältnis zwischen neuen und bekannten URLs.
Für die meisten Websites (unter 10.000 Seiten) ist Crawl Budget kein Problem. Google crawlt sie vollständig. Bei großen Websites mit hunderttausenden URLs wird Crawl Budget zum strategischen Thema.
Faktoren, die Crawl Budget verschwenden.
- Duplicate Content: Mehrere URLs mit identischem Inhalt (z. B. durch URL-Parameter, Session-IDs oder Trailing Slashes) zwingen Google, redundante Seiten zu crawlen.
- Soft-404-Seiten: Seiten, die einen 200-Statuscode zurückgeben, aber keinen sinnvollen Inhalt enthalten.
- Unendliche Facetten-Kombinationen: Filterseiten in Online-Shops, die Millionen URL-Kombinationen erzeugen.
- Fehlerhafte Weiterleitungsketten: Redirects, die über mehrere Stationen laufen, bevor sie das Ziel erreichen.
Wie steuert die robots.txt die Indexierung?
Die robots.txt ist eine Textdatei im Stammverzeichnis einer Website, die dem Crawler mitteilt, welche Bereiche nicht gecrawlt werden sollen.
Wichtig: robots.txt verhindert das Crawling, nicht die Indexierung. Wenn eine gesperrte URL von externen Seiten verlinkt wird, kann Google sie trotzdem indexieren, allerdings ohne den Inhalt zu kennen. Das Ergebnis ist ein SERP-Eintrag ohne Snippet-Text.
Typische Anwendungsfälle.
- Admin-Bereiche sperren:
Disallow: /admin/ - Suchseiten sperren:
Disallow: /suche? - Crawler-spezifische Regeln:
User-agent: Googlebotfür Google,User-agent: Bingbotfür Bing - Sitemap-Verweis:
Sitemap: https://example.com/sitemap.xml
Für eine vollständige Indexierungssperre muss der Meta-Tag noindex oder der HTTP-Header X-Robots-Tag verwendet werden, nicht die robots.txt.
Wie funktionieren XML-Sitemaps?
Eine XML-Sitemap ist eine strukturierte Datei, die alle indexierungswürdigen URLs einer Website auflistet. Sie wird in der Google Search Console eingereicht und dient als Wegweiser für den Googlebot.
Eine Sitemap enthält pro URL folgende Informationen.
- loc: Die vollständige URL
- lastmod: Datum der letzten Änderung
- changefreq: Geschätzte Änderungshäufigkeit (wird von Google weitgehend ignoriert)
- priority: Relative Priorität innerhalb der Sitemap (wird von Google weitgehend ignoriert)
Praxis-Empfehlungen: Nur indexierungswürdige URLs aufnehmen (keine noindex-Seiten, keine Redirects, keine 404-Seiten). Maximal 50.000 URLs pro Sitemap-Datei. Bei größeren Websites: Sitemap-Index verwenden, der auf mehrere Sitemap-Dateien verweist. lastmod-Datum nur aktualisieren, wenn sich der Inhalt tatsächlich geändert hat, nicht bei jedem Deployment.
Wie verhindert man die Indexierung bestimmter Seiten?
Nicht jede Seite gehört in den Index. Danke-Seiten, interne Suchseiten, Staging-Umgebungen und dünne Filterseiten sollten ausgeschlossen werden.
-
Meta-Robots noindex:
<meta name="robots" content="noindex">im HTML-Head der Seite. Die zuverlässigste Methode. Google muss die Seite crawlen können, um die Direktive zu lesen. -
X-Robots-Tag: HTTP-Header
X-Robots-Tag: noindex. Funktioniert auch für nicht-HTML-Ressourcen wie PDFs. -
Canonical Tag:
<link rel="canonical" href="...">verweist auf die bevorzugte URL-Version. Löst Duplicate-Content-Probleme, ohne Seiten aus dem Index zu nehmen. -
robots.txt Disallow: Verhindert das Crawling, nicht die Indexierung. Nicht als Indexierungssperre geeignet.
-
Passwortschutz (.htaccess): Serverseitige Authentifizierung verhindert jeglichen Zugriff, auch durch Crawler. Die rigideste Methode, empfohlen von Google für vertrauliche Inhalte.
Was ist Index Bloat?
Index Bloat beschreibt die Situation, wenn Google deutlich mehr Seiten einer Domain indexiert hat, als indexiert sein sollten. Typische Verursacher sind.
- Facetten-Seiten in Online-Shops (Farbe x Größe x Material = tausende Kombinationen)
- Tag- und Archivseiten in CMS-Systemen
- Paginierungsseiten ohne einzigartigen Content
- URL-Parameter-Varianten (Sortierung, Session-IDs, Tracking-Parameter)
Index Bloat schadet auf drei Ebenen. Erstens: Crawl Budget wird für irrelevante Seiten verschwendet. Zweitens: Duplicate Content fragmentiert Ranking-Signale. Drittens: Die Gesamtqualität der Domain sinkt, weil Google tausende dünne Seiten im Index sieht.
Die Diagnose erfolgt über die Google Search Console (Seiten-Bericht) und den site:-Operator in Google (site:example.com). Die Lösung: noindex auf irrelevante Seiten, Canonical Tags für Duplikate, robots.txt Disallow für Parameter-URLs, und URL-Parameter-Handling in der Search Console konfigurieren.
Was ist Mobile-First Indexing?
Seit März 2024 indexiert Google alle Websites ausschließlich mit dem Smartphone-Crawler. Die mobile Version einer Seite bestimmt, was im Index landet. Desktop-exklusive Inhalte, die auf der mobilen Version fehlen, werden nicht indexiert.
Drei Konsequenzen für das technische SEO.
-
Responsive Design ist Pflicht: Die mobile Seite muss alle indexierungsrelevanten Inhalte enthalten: Text, Bilder, Videos, strukturierte Daten und interne Links.
-
Separate mobile URLs (m.example.com) sind riskant: Wenn die mobile Version weniger Content enthält als die Desktop-Version, gehen Inhalte im Index verloren. Responsive Design eliminiert dieses Risiko.
-
Core Web Vitals werden mobil gemessen: Largest Contentful Paint, Interaction to Next Paint und Cumulative Layout Shift beziehen sich auf die mobile Nutzererfahrung.
Häufig gestellte Fragen
Gibt es eine Garantie auf Indexierung?
Nein. Die Übermittlung einer URL oder Sitemap über die Search Console ist ein Signal an Google, keine Garantie. Google entscheidet anhand interner Qualitätskriterien, ob eine Seite aufgenommen wird. Ablehnungsgründe: Duplicate Content, technische Fehler, dünner Inhalt oder Verstöße gegen die Webmaster-Richtlinien.
Wie lange dauert es, bis eine neue Seite indexiert ist?
Zwischen wenigen Stunden und mehreren Wochen. Seiten mit starker interner Verlinkung, hoher Domain-Autorität und frischem Content werden schneller indexiert. Die URL-Prüfung in der Search Console beschleunigt den Prozess. Das Limit liegt bei rund 10 URLs pro Tag.
Wie prüft man, ob eine Seite indexiert ist?
Drei Methoden. Erstens: site:example.com/url in Google eingeben. Zweitens: URL-Prüfung in der Google Search Console. Drittens: Seiten-Bericht in der Search Console, der alle indexierten und nicht indexierten URLs einer Domain auflistet, inklusive Gründe für die Nichtindexierung.
Werden Bilder und Videos indexiert?
Ja. Google betreibt separate Indizes für Bilder und Videos. Bilder werden indexiert, wenn sie für den Googlebot zugänglich sind, beschreibende ALT-Texte und sprechende Dateinamen tragen. Videos erfordern eine Video-Sitemap oder strukturierte Daten (VideoObject Schema). CSS-generierte Hintergrundgrafiken ignoriert Google.
Wie wirkt sich Duplicate Content auf die Indexierung aus?
Duplicate Content erschwert die Bestimmung der relevantesten URL, belastet das Crawl Budget und fragmentiert Ranking-Signale. Google wählt eigenständig eine kanonische URL. Das Ergebnis entspricht nicht immer der gewünschten Version. Canonical Tags, 301-Redirects und eine konsequente URL-Struktur lösen das Problem. Eine professionelle OnPage-Optimierung prüft systematisch auf Duplikate.
SEO nicht nur verstehen, sondern umsetzen?
Wir machen die Theorie zur Praxis. In einem kostenlosen Erstgespräch zeigen wir dir, wie diese Konzepte konkret für dein Unternehmen funktionieren.