Technisches SEO ~6 Min. Lesezeit

Robots.txt

Die robots.txt steuert, welche Bereiche einer Website Suchmaschinen crawlen dürfen. Syntax, Direktiven und AI-Crawler-Blocking.

Die robots.txt ist eine Textdatei im Root-Verzeichnis einer Website, die Suchmaschinen-Crawlern Anweisungen gibt, welche Bereiche sie durchsuchen dürfen und welche nicht. Sie folgt dem Robots Exclusion Protocol, einem Standard aus dem Jahr 1994, der 2022 von Google als RFC 9309 formalisiert wurde. Die korrekte Konfiguration der robots.txt ist ein Grundelement der technischen Suchmaschinenoptimierung und steuert, wie effizient Suchmaschinen das verfügbare Crawl-Budget einsetzen.

Was ist die robots.txt und wie funktioniert sie?

Die robots.txt liegt immer unter der URL https://example.com/robots.txt. Bevor ein Crawler eine Seite abruft, prüft er zuerst diese Datei. Findet er keine robots.txt oder gibt der Server einen 404-Fehler zurück, crawlt der Bot die gesamte Website ohne Einschränkungen.

Die Datei wirkt ausschließlich als Crawl-Steuerung. Sie verhindert nicht die Indexierung einer Seite. Wenn externe Links auf eine per robots.txt blockierte URL verweisen, kann Google diese URL trotzdem indexieren, allerdings ohne den Seiteninhalt zu kennen. In der Suche erscheint dann ein Eintrag ohne Snippet mit dem Hinweis “Keine Informationen für diese Seite verfügbar”.

Wie ist die robots.txt-Syntax aufgebaut?

Die robots.txt besteht aus Regelblöcken. Jeder Block beginnt mit einer User-agent-Zeile, gefolgt von Disallow- und Allow-Direktiven. Leere Zeilen trennen die Blöcke voneinander. Kommentare beginnen mit dem Rautezeichen (#).

Die wichtigsten Direktiven im Überblick:

DirektiveFunktionBeispiel
User-agentBestimmt, für welchen Crawler die Regeln geltenUser-agent: Googlebot
DisallowSperrt einen Pfad für den angegebenen CrawlerDisallow: /admin/
AllowErlaubt einen Pfad innerhalb eines gesperrten BereichsAllow: /admin/public/
SitemapVerweist auf die XML-Sitemap der WebsiteSitemap: https://example.com/sitemap.xml
Crawl-delayWartezeit zwischen Anfragen (nicht von Google beachtet)Crawl-delay: 10

Beispiel einer typischen robots.txt

User-agent: *
Disallow: /admin/
Disallow: /warenkorb/
Disallow: /checkout/
Disallow: /suche?
Allow: /

Sitemap: https://example.com/sitemap.xml

Der Stern (*) als User-agent gilt für alle Crawler. Die Disallow-Regeln sperren den Admin-Bereich, den Warenkorb, den Checkout und Suchergebnisseiten. Die Allow-Regel stellt sicher, dass alle anderen Bereiche crawlbar bleiben. Die Sitemap-Angabe erleichtert das Auffinden aller indexierbaren URLs.

Wie funktioniert die Pfad-Matching-Logik?

Google verwendet Pattern Matching mit zwei Sonderzeichen:

  • Sternchen (*): Steht für eine beliebige Zeichenfolge. Disallow: /*.pdf$ blockiert alle PDF-Dateien.
  • Dollarzeichen ($): Markiert das Ende einer URL. Disallow: /seite$ blockiert /seite, aber nicht /seite/unterseite.

Bei widersprüchlichen Regeln gewinnt die spezifischere Regel. Wenn Disallow: /bilder/ und Allow: /bilder/produkte/ gleichzeitig existieren, darf der Crawler /bilder/produkte/ crawlen, weil die Allow-Regel den längeren Pfad hat.

Welche häufigen Fehler gibt es bei der robots.txt?

Fehler in der robots.txt haben direkte Auswirkungen auf die Crawlbarkeit und Sichtbarkeit einer Website. Die folgenden Probleme treten in der Praxis besonders häufig auf.

  • Versehentliches Blockieren der gesamten Website. Ein Disallow: / unter User-agent: * sperrt die komplette Domain. Dieser Fehler passiert häufig nach einem Relaunch, wenn die Staging-robots.txt auf die Live-Umgebung übertragen wird.
  • CSS und JavaScript blockieren. Google muss CSS- und JS-Dateien crawlen können, um Seiten korrekt zu rendern. Ein Disallow: /wp-content/ bei WordPress sperrt auch Theme-Dateien und Stylesheets, was das Rendering verhindert.
  • Protokoll- oder Subdomain-Verwechslung. Die robots.txt gilt nur für die exakte Domain und das Protokoll, unter der sie liegt. https://www.example.com/robots.txt steuert nicht https://example.com oder http://www.example.com.
  • Robots.txt als Indexierungsschutz nutzen. Die robots.txt verhindert kein Indexieren. Für echten Indexierungsschutz ist das Meta-Robots-Tag mit noindex oder der X-Robots-Tag im HTTP-Header nötig.
  • Sitemap-URL mit falschem Protokoll. Die Sitemap-URL muss das korrekte Protokoll (https) und die korrekte Domain enthalten. Relative Pfade funktionieren nicht.

Was ist der Unterschied zwischen robots.txt und dem Meta-Robots-Tag?

Die robots.txt und das Meta-Robots-Tag haben unterschiedliche Aufgaben und Wirkungsweisen. In vielen Situationen ergänzen sie sich, können sich aber auch widersprechen.

Eigenschaftrobots.txtMeta-Robots-Tag
WirkungsebeneCrawl-Steuerung (vor dem Abruf)Indexierungssteuerung (nach dem Abruf)
PlatzierungTextdatei im Root-VerzeichnisHTML-Head oder HTTP-Header
GranularitätPfadbasiert (Verzeichnisse, Dateitypen)Seitenbasiert (pro URL)
Noindex möglichNeinJa
Nofollow möglichNeinJa

Eine wichtige Falle: Wenn die robots.txt den Zugriff auf eine Seite blockiert, kann Google das dort hinterlegte noindex-Tag nicht lesen. Die Seite bleibt potenziell im Index, obwohl der Seitenbetreiber das Gegenteil beabsichtigt hat. Wer eine Seite aus dem Index entfernen will, muss den Crawl-Zugriff erlauben und per Meta-Robots-Tag noindex setzen.

Wie blockiert man KI-Crawler per robots.txt?

Seit 2023 crawlen neben Suchmaschinen auch KI-Unternehmen Websites, um Trainingsdaten für Large Language Models zu sammeln. Die robots.txt ist derzeit das primäre Instrument, um diesen Zugriff einzuschränken.

Die wichtigsten KI-Crawler und ihre User-Agent-Bezeichnungen:

  • GPTBot: OpenAIs Crawler für ChatGPT-Trainingsdaten
  • ChatGPT-User: OpenAIs Crawler für Echtzeit-Browsing in ChatGPT
  • Google-Extended: Googles Crawler für Gemini-Trainingsdaten (getrennt von Googlebot)
  • ClaudeBot / anthropic-ai: Anthropics Crawler
  • CCBot: Common Crawl, wird von vielen KI-Anbietern als Datenquelle genutzt
  • Bytespider: ByteDances Crawler
  • PerplexityBot: Perplexitys Crawler für die KI-Suche

Beispiel einer robots.txt mit KI-Crawler-Blocking:

User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Bytespider
Disallow: /

Die Wirksamkeit hängt davon ab, ob die KI-Anbieter die robots.txt respektieren. OpenAI, Google und Anthropic haben öffentlich zugesagt, die robots.txt zu befolgen. Für andere Crawler gibt es keine verbindliche Garantie.

Für die Generative Engine Optimization ist eine differenzierte Strategie sinnvoll: Wer in KI-Suchergebnissen zitiert werden will, sollte die Crawler nicht pauschal blockieren, sondern gezielt entscheiden, welche Inhalte für welche Systeme zugänglich sein sollen.

Wie testet und validiert man die robots.txt?

Google bietet in der Search Console unter “Einstellungen” einen robots.txt-Tester. Dort lässt sich prüfen, ob eine bestimmte URL für einen bestimmten Crawler gesperrt oder erlaubt ist. Screaming Frog zeigt beim Crawl an, welche URLs durch die robots.txt blockiert werden.

Nach jeder Änderung an der robots.txt sollte die Datei in der Search Console erneut eingereicht werden. Google cached die robots.txt für bis zu 24 Stunden. Änderungen wirken sich deshalb nicht sofort aus.

Die robots.txt hat Auswirkungen auf das gesamte Crawl-Verhalten einer Website. Fehler können dazu führen, dass wichtige Seiten aus dem Index verschwinden oder dass Crawl-Budget für irrelevante URLs verschwendet wird. Regelmäßige Überprüfungen, besonders nach einem Website-Relaunch, sind deshalb Pflicht.

Kann eine fehlerhafte robots.txt die gesamte Website deindexieren?

Ja. Ein Disallow: / sperrt den Zugriff auf alle Seiten. Google entfernt die Inhalte nicht sofort aus dem Index, zeigt aber keine Snippets mehr an. Bei längerem Bestehen der Blockade fallen die betroffenen URLs aus dem Index. Die Wiederherstellung nach Korrektur dauert je nach Website-Größe Tage bis Wochen.

Muss jede Website eine robots.txt haben?

Nein. Ohne robots.txt crawlen Suchmaschinen die gesamte Website ohne Einschränkungen. Für kleine Websites ohne sensible Bereiche oder Crawl-Budget-Probleme ist das unproblematisch. Für größere Websites mit tausenden URLs, internen Suchergebnisseiten oder Facettennavigation ist eine robots.txt zur Crawl-Budget-Steuerung dringend empfehlenswert.

Wie oft wird die robots.txt von Google abgerufen?

Google ruft die robots.txt in der Regel alle 24 Stunden neu ab. Bei Fehlern (5xx-Serverfehler) verwendet Google die letzte bekannte Version für bis zu 30 Tage. Danach behandelt Google das Fehlen als “alles erlaubt”. Die aktuelle Version der gecachten robots.txt ist in der Search Console einsehbar.

André Schäfer

Geschrieben von

André Schäfer

Geschäftsführer & SEO-Stratege

André Schäfer (*1990, Kronach) ist Gründer der sagemedia GmbH in Bad Staffelstein. Ehemaliger E-Sportler (n!faculty, deutsches Nationalteam) und seit 2009 im SEO tätig. 2021 gewann er den deutschen SEO-Contest, 2022 Top-5 beim SommerSEO. Sein Fokus: datengetriebene SEO-Strategien mit Branchenexklusivität.

Nächster Schritt

SEO nicht nur verstehen, sondern umsetzen?

Wir machen die Theorie zur Praxis. In einem kostenlosen Erstgespräch zeigen wir dir, wie diese Konzepte konkret für dein Unternehmen funktionieren.