Technisches SEO ~8 Min. Lesezeit

Googlebot

Googlebot ist Googles Crawler für die Web-Suche. Varianten, Mobile-First-Indexing, robots.txt-Steuerung und wie du den echten Bot per Reverse-DNS prüfst.

Googlebot ist Googles Web-Crawler-Familie für die Google-Suche. Hinter dem Namen stehen mehrere spezialisierte Bots für Suche, Bilder, News und weitere Aufgaben. Seit Juli 2024 läuft das Crawling vollständig über Mobile-First-Indexing, das Rendering erfolgt in einer aktuellen Chromium-Engine. Damit eine Seite in den Google-Index aufgenommen wird, müssen Erreichbarkeit, robots.txt und Mobile-Tauglichkeit zusammenpassen.

Was ist der Googlebot?

Googlebot ist die Familie automatisierter Web-Crawler, mit denen Google das offene Web für die Suche erfasst. Der Bot ruft URLs auf, lädt HTML, Bilder und JavaScript, rendert Seiten in einer aktuellen Chromium-Engine und übergibt die Ergebnisse an die Indexierungs-Pipeline.

Der Name “Googlebot” wird umgangssprachlich für sämtliche Google-Crawler verwendet, technisch bezeichnet er aber primär die Search-Crawler Smartphone und Desktop. Googlebot folgt einem festen Identifikationsmuster: Der User-Agent-String enthält den Token Googlebot/2.1 und einen Verweis auf http://www.google.com/bot.html. Die Quelle der Anfragen ist eine veröffentlichte IP-Range, die Google in JSON-Form unter developers.google.com pflegt und regelmäßig aktualisiert.

Welche Googlebot-Varianten gibt es?

Google trennt seine Crawler in drei Klassen: Common Crawlers (Googlebot Smartphone, Desktop, Image, Video, News), Special-Case Crawlers (AdsBot, AdSense, APIs-Google) und User-Triggered Fetchers (Google-InspectionTool, Read-Aloud). Seit 2023 ergänzen GoogleOther und Google-Extended das Set.

VarianteToken / User-AgentAufgabe
Googlebot SmartphoneGooglebotHauptcrawler, Mobile-First-Indexing
Googlebot DesktopGooglebotReststand für Spezialfälle (Jobs, Shopping)
Googlebot-ImageGooglebot-Image/1.0Bildersuche
Googlebot-VideoGooglebot-Video/1.0Videosuche
Googlebot-NewsGooglebot-NewsGoogle News
Storebot-GoogleStorebot-GoogleShopping- und Produktdaten
AdsBot Mobile/DesktopAdsBot-Google-Mobile, AdsBot-GoogleLandingpage-Quality für Google Ads
Google-InspectionToolGoogle-InspectionToolURL-Inspection in der Search Console
GoogleOtherGoogleOtherInterne R&D-Crawls außerhalb der Suche
Google-Extended(kein UA, nur robots.txt-Token)Steuert KI-Trainings- und Grounding-Nutzung

Common Crawlers respektieren immer die robots.txt-Direktive Googlebot, Special-Case-Crawler benötigen oft eigene Token. AdsBot folgt zum Beispiel ausdrücklich nicht dem allgemeinen Googlebot-Disallow.

Wie funktioniert das Crawling durch Googlebot?

Das Crawling läuft in drei Stufen: Der Scheduler priorisiert URLs nach Crawl-Demand, der Crawler ruft sie über HTTP/2 ab, und der Web Rendering Service lädt JavaScript in Headless Chromium nach. Seit 2019 erfolgt das Rendering nahezu in Echtzeit statt im früheren Two-Wave-Verfahren.

Konkret durchläuft jede URL mehrere Schritte:

  • Scheduling: Der Scheduler entscheidet anhand von Popularität, Aktualität und vorheriger Antwortqualität, welche URLs als nächstes besucht werden.
  • Fetching: Der Crawler schickt einen HTTP-Request, seit November 2020 standardmäßig über HTTP/2. Der Server kann das Protokoll mit Status 421 ablehnen.
  • Rendering: Der Web Rendering Service (WRS) führt JavaScript in einer Evergreen-Chromium-Version aus, im April 2026 typischerweise Chrome 147.
  • Indexing-Übergabe: Das gerenderte DOM samt extrahierter Links und strukturierter Daten geht in die Indexierungs-Pipeline.

Googlebot crawlt typische HTML-Seiten bis 2 MB Größe und PDFs bis 64 MB. Größere Dateien werden abgeschnitten oder ignoriert. HTTP/3 unterstützt der Bot bislang nicht offiziell.

Was ist Mobile-First Indexing und wie betrifft es Googlebot?

Mobile-First Indexing bedeutet, dass Google ausschließlich die mobile Version einer Seite zur Indexierung heranzieht. Die Umstellung begann im März 2018 und wurde am 5. Juli 2024 für die letzten Bestandssites abgeschlossen. Mobil unerreichbare Seiten werden seitdem nicht mehr indexiert.

Praktische Konsequenzen für Website-Betreiber:

  • Smartphone-Bot ist Standard: Die ganz überwiegende Mehrheit aller Crawls erfolgt mit dem Googlebot Smartphone. Googlebot Desktop erscheint im Logfile nur noch für Produktdaten und Google for Jobs.
  • Mobile Sichtbarkeit muss gleichwertig sein: Inhalte, strukturierte Daten und interne Links müssen in der mobilen Variante identisch zur Desktop-Variante vorhanden sein.
  • Responsive Design wird Pflicht: Separate m-dot-Domains (m.example.com) erschweren das Mobile-First-Crawling und sind ein bekanntes Risiko.
  • Render-Blocker auf Mobile sind kritisch: Wenn die Seite mobil nicht rendert, wird der gesamte Index-Eintrag instabil.

Google überwacht den Mobile-Status der eigenen Domain im Search-Console-Bericht “Indexierung der Seite” mit Angabe des verwendeten Crawler-Typs.

Wie lässt sich der Googlebot blockieren oder steuern?

Drei Mechanismen steuern den Zugriff: Anweisungen aus der robots.txt blockieren das Crawling vorab, Meta-Robots oder X-Robots-Tag verhindern die Indexierung gecrawlter Seiten, Passwortschutz sperrt sensible Bereiche vollständig. Der Crawl-Delay-Befehl wird ignoriert, alternative Steuerung erfolgt über Search-Console-Einstellungen.

Die Wahl des Werkzeugs hängt vom Ziel ab:

  • robots.txt mit Disallow: Verhindert das Crawling vor dem Request, indexierte URLs können trotzdem als Snippet ohne Inhalt erscheinen. Seit September 2022 standardisiert in RFC 9309.
  • Meta-Robots noindex: Erlaubt das Crawling, blockt aber die Aufnahme in den Index. Die URL muss crawlbar sein, sonst sieht Googlebot den Tag nicht.
  • X-Robots-Tag im HTTP-Header: Funktional identisch zu Meta-Robots, eignet sich für Nicht-HTML-Dateien wie PDFs oder Bilder.
  • HTTP 401/403: Authentifizierungsschutz hält jeden Crawler vollständig draußen.
  • Search Console Crawl-Rate: Die alte Crawl-Rate-Funktion wurde im Januar 2024 entfernt, Steuerung erfolgt heute serverseitig oder über robots.txt-Antworten.

Google ignoriert die Direktive Crawl-delay ausdrücklich. Wer Googlebot drosseln muss, antwortet mit HTTP 503 oder 429 bei Überlastung, woraufhin der Bot die Frequenz selbständig reduziert.

Wie verifiziere ich echten Googlebot-Traffic?

Echter Googlebot lässt sich auf zwei Wegen verifizieren: per Reverse-DNS-Lookup auf den Hostnamen googlebot.com, google.com oder googleusercontent.com mit Forward-Bestätigung, oder per Abgleich mit den offiziellen IP-Range-JSON-Files auf developers.google.com. Der User-Agent allein reicht nicht aus.

Die offizielle DNS-Verifizierung folgt einem zweistufigen Verfahren:

  1. Reverse-DNS-Lookup auf die Quell-IP. Der zurückgegebene Hostname muss auf googlebot.com, google.com oder googleusercontent.com enden.
  2. Forward-DNS-Lookup auf diesen Hostnamen. Die zurückgegebene IP muss exakt mit der ursprünglichen Quell-IP übereinstimmen.

Schneller geht der IP-Range-Abgleich gegen Googles veröffentlichte JSON-Files (googlebot.json, special-crawlers.json, user-triggered-fetchers.json). Diese Listen lassen sich automatisiert in Logfile-Tools, Firewalls oder CDN-Regeln einbinden. Eine systematische Auswertung der Server-Logs zeigt darüber hinaus, welche Seiten Googlebot tatsächlich besucht und wie häufig.

Fake-Bots sind häufig: Spam-Crawler, Scraper und Marketing-Tools fälschen den User-Agent regelmäßig. Ohne IP- oder DNS-Validierung sind Logfile-Statistiken zu Googlebot-Besuchen wertlos.

Was ist Crawl-Budget und wann ist es relevant?

Crawl-Budget bezeichnet die Menge an URLs, die Google pro Domain crawlen kann und will. Es kombiniert das Crawl-Capacity-Limit (Server-Performance) mit dem Crawl-Demand (Aktualität, Popularität). Laut Google ist es nur für Sites über 1 Million URLs oder mit täglicher Änderungsfrequenz relevant.

Zwei Faktoren bestimmen das verfügbare Crawl-Volumen pro Domain:

  • Crawl Capacity Limit: Wie viele parallele Anfragen verträgt der Server, ohne dass Antwortzeiten oder Fehlerquoten steigen. Langsame oder fehlerhafte Server reduzieren das Limit automatisch.
  • Crawl Demand: Wie wichtig ist eine URL für Google. Popularität (interne und externe Verlinkung) und Aktualität (Änderungsfrequenz) treiben den Bedarf nach oben.

Für kleine bis mittelgroße Websites unter 10.000 URLs spielt das Crawl-Budget keine praktische Rolle. Relevant wird es bei Online-Shops mit großen Filterstrukturen, News-Portalen mit hoher Publikationsfrequenz und Marktplätzen mit Millionen Produkt-URLs. Häufige Verschwender sind Facetten-Filter, interne Suchergebnisseiten und Session-IDs in URLs.

Welche neuen Google-Crawler gibt es seit 2023?

Drei neue Crawler ergänzen seit 2023 das Googlebot-Ökosystem: GoogleOther (April 2023) für nicht-Search-Crawls, Google-Extended (September 2023) für KI-Trainings-Steuerung über robots.txt und Google-CloudVertexBot für Vertex-AI-Agenten. Search-Rankings werden durch keinen dieser Bots direkt beeinflusst.

CrawlerEinführungZweck
GoogleOtherApril 2023Interne R&D-Crawls außerhalb der Search-Pipeline
GoogleOther-Image / -Video2024Mediendateien-Varianten von GoogleOther
Google-Extended28. September 2023robots.txt-Token zur Steuerung von Gemini-Training und Grounding
Google-CloudVertexBot2024Crawling für kundenspezifische Vertex-AI-Agenten

Google-Extended ist eine Sonderform: Es existiert kein eigener User-Agent-String, der Token wirkt ausschließlich in der robots.txt. Wer KI-Modelle vom eigenen Inhalt fernhalten will, ergänzt User-agent: Google-Extended mit Disallow: /. Das Search-Ranking bleibt davon unberührt, da Googlebot weiterhin uneingeschränkt crawlt. GoogleOther dagegen sendet einen sichtbaren User-Agent und sollte in Logfiles getrennt von Googlebot ausgewertet werden, um die Crawl-Statistik der Search-Pipeline nicht zu verfälschen.

sagemedia integriert die Crawler-Trennung in die Organic-Ovation-Methode: Nur echte Googlebot-Besuche aus der Search-Pipeline fließen in die Crawl-Performance-Analyse über Googles Webmaster-Tool ein, alle übrigen Bot-Klassen werden separat dokumentiert.

Wie oft besucht Googlebot eine Seite?

Die Crawl-Frequenz hängt von Aktualität, Popularität und Server-Antwort ab. Stark verlinkte Startseiten großer News-Portale werden mehrfach pro Stunde gecrawlt, statische Unterseiten kleiner Domains teilweise nur alle paar Wochen. Im Search-Console-Bericht “Crawling-Statistik” lässt sich die individuelle Frequenz pro Domain einsehen.

Welche Chrome-Version nutzt Googlebot aktuell?

Googlebot ist seit Mai 2019 evergreen und läuft auf der jeweils aktuellen stable Chromium-Version. Im April 2026 bedeutet das Chrome 147 mit wenigen Wochen Versatz zur Chrome-Stable-Veröffentlichung. JavaScript-Features, die in der aktuellen Chrome-Version unterstützt sind, funktionieren typischerweise auch im Web Rendering Service.

Lässt sich Googlebot per IP-Blockierung aussperren?

Ja, technisch ist das möglich, aber nicht empfehlenswert. Wer Googlebot über Firewall-Regeln blockt, riskiert vollständige De-Indexierung der eigenen Domain. Die korrekten Steuerungsmittel sind robots.txt für selektives Disallow und Meta-Robots für gezielte Indexierungs-Kontrolle.

Was ist der Unterschied zwischen Googlebot und Bingbot?

Googlebot crawlt für die Google-Suche, Bingbot für die Microsoft-Bing-Suche. Beide nutzen ähnliche Mechanismen (User-Agent, robots.txt, Sitemaps), unterscheiden sich aber in IP-Ranges, Render-Engine (Bingbot nutzt eine eigene Edge-basierte Variante) und Crawl-Frequenz. Optimierungen für Googlebot wirken in der Regel auch für Bingbot, eine spezielle Bingbot-Optimierung ist selten nötig.

André Schäfer

Geschrieben von

André Schäfer

Geschäftsführer & SEO-Stratege

André Schäfer (*1990, Kronach) ist Gründer der sagemedia GmbH in Bad Staffelstein. Ehemaliger E-Sportler (n!faculty, deutsches Nationalteam) und seit 2009 im SEO tätig. 2021 gewann er den deutschen SEO-Contest, 2022 Top-5 beim SommerSEO. Sein Fokus: datengetriebene SEO-Strategien mit der Organic-Ovation Methode.

Nächster Schritt

SEO nicht nur verstehen, sondern umsetzen?

Wir machen die Theorie zur Praxis. In einem kostenlosen Erstgespräch zeigen wir dir, wie diese Konzepte konkret für dein Unternehmen funktionieren.