Suchmaschinen ~8 Min. Lesezeit

Suchmaschinenindex

Der Suchmaschinenindex ist die durchsuchbare Datenbank einer Suchmaschine. Aufbau per Inverted Index, Größe, Aktualisierung und Bedeutung für SEO.

Der Suchmaschinenindex ist die durchsuchbare Datenbank, in der eine Suchmaschine die Inhalte aller bekannten Webseiten gespeichert ablegt. Googles Index umfasst hunderte Milliarden Seiten und ist über 100 Millionen Gigabyte groß. Nur Seiten, die in diesem Datenbestand liegen, können überhaupt in den Suchergebnissen erscheinen. Das technische Herzstück ist der Inverted Index, eine Struktur, die jedem Wort die Liste aller Dokumente zuordnet, in denen es vorkommt. Genau dadurch beantwortet Google eine Suche in Millisekunden, statt das halbe Web sequenziell zu durchsuchen.

Was ist ein Suchmaschinenindex?

Ein Suchmaschinenindex ist die zentrale Datenbank, aus der eine Suchmaschine ihre Treffer zieht. Google selbst vergleicht ihn mit dem Stichwortverzeichnis am Ende eines Buches: Für jedes Wort, das auf einer indexierten Seite vorkommt, existiert ein Eintrag, der auf alle Fundstellen verweist.

Wichtig ist die Abgrenzung zwischen dem Web und dem Index. Google kennt weit mehr Seiten, als tatsächlich im Index liegen. Bereits 2016 sprach das Unternehmen von rund 130 Billionen bekannten URLs. Der tatsächlich durchsuchbare Index ist deutlich kleiner, weil Google Duplikate, dünne und minderwertige Seiten bewusst aussortiert. Historisch sammelte Google schwächere Seiten zunächst in einem nachrangigen Zweitindex, bevor diese sichtbare Trennung 2007 wegfiel. Eine Seite, die nicht im Index steht, existiert für die Suche schlicht nicht, unabhängig von ihrer Qualität. Wie diese qualitätsgeprüfte Teilmenge technisch organisiert ist, bestimmt eine spezielle Datenstruktur.

Wie ist ein Suchmaschinenindex aufgebaut?

Jeder moderne Suchmaschinenindex beruht auf zwei sich ergänzenden Datenstrukturen, die gemeinsam festlegen, wie eine Volltext-Suchmaschine Texte erschließt:

  • Forward Index: Ordnet jedem Dokument die Liste der enthaltenen Begriffe zu (Dokument → Wörter). Diese Struktur entsteht direkt beim Parsen einer Seite.
  • Inverted Index: Kehrt die Zuordnung um und ordnet jedem Begriff die Liste aller Dokumente zu, in denen er auftaucht (Wort → Dokumente). Diese sogenannte Postingsliste enthält zusätzlich die Position des Begriffs im Text.

Die Technik des invertierten Index stammt aus der Information-Retrieval-Forschung der 1960er Jahre und ist bis heute das Rückgrat jeder großen Suchmaschine. In Googles ursprünglicher Architektur, beschrieben 1998 von Larry Page und Sergey Brin, bekommt jede URL eine docID und jedes Wort eine wordID. Aus wordID, beschreibenden Informationen und Ranking-Signalen entsteht ein sogenannter Hit. Diese Hits werden in Containern, den Barrels, gespeichert, während das Lexicon die Wörter auf die zugehörigen Seiten referenziert.

StrukturZuordnungFunktion
Forward IndexDokument → WörterBeim Parsen erzeugt, listet je Seite alle Terme
Inverted IndexWort → DokumenteErmöglicht das blitzschnelle Auffinden von Treffern
LexiconWortverzeichnisVerbindet Begriffe mit ihren Postingslisten
BarrelsSpeichercontainerAblage der Hits und Ranking-Informationen

Welche Treffer diese Strukturen liefern, hängt davon ab, welche Informationen Google pro Seite überhaupt ablegt.

Was speichert der Index zu jeder Seite?

Der Index speichert weit mehr als reinen Text. Pro indexierter Seite hält Google fünf Arten von Signalen vor, die später über die Sortierung der Treffer entscheiden:

  • Jedes Wort samt Position: Grundlage des invertierten Index und damit der Phrasen- und Proximity-Suche.
  • Strukturelle Elemente: Title, Meta-Angaben, Überschriften, Alt-Texte und strukturierte Daten (Schema-Markup).
  • Verlinkungsdaten: Interne und externe Links sowie die zugehörigen Ankertexte als Hinweis auf Relevanz.
  • Aktualität und Sprache: Datum der letzten Änderung, erkannte Sprache und die mobile Version der Seite.
  • Entitäten und Bedeutung: Semantische Informationen, die Personen, Orte und Themen einer Seite zuordnen.

Multipliziert man diese Signalmenge mit der Zahl der erfassten Seiten, wird die schiere Größe des Index greifbar.

Wie groß ist der Suchmaschinenindex von Google?

Der Google-Index gehört zu den größten Datenbanken der Welt. Laut Googles offizieller Dokumentation umfasst er hunderte Milliarden Webseiten und ist über 100 Millionen Gigabyte groß. Im US-Kartellverfahren bezifferte ein Google-Manager 2023 den Bestand auf rund 400 Milliarden Dokumente.

KennzahlWertQuelle
Indexgrößeüber 100 Millionen GigabyteGoogle (How Search Works)
Indexierte Seitenhunderte MilliardenGoogle (How Search Works)
Dokumente im Indexrund 400 MilliardenKartellverfahren 2023
Bekannte URLs im Webrund 130 Billionen (2016)Google

Die im Web bekannten 130 Billionen URLs sind nicht mit dem Index zu verwechseln. Sie beschreiben, was Google überhaupt entdeckt hat. Der durchsuchbare Index ist eine gefilterte, qualitätsgeprüfte Teilmenge davon. Eine grobe Schätzung, wie viele Seiten einer Domain im Index liegen, liefert der site:-Operator, etwa site:example.com. Damit eine einzelne Seite Teil dieses Bestands wird, muss sie zuvor einen mehrstufigen Aufnahmeprozess durchlaufen.

Wie gelangt eine Seite in den Index?

Der Weg in den Index führt über drei getrennte Schritte. Zuerst entdeckt Googles Crawler eine URL über Links, eine eingereichte XML-Sitemap oder die Search Console. Anschließend rendert und analysiert Google den Inhalt und entscheidet, ob die Seite aufgenommen wird. Wie viele URLs eine Domain dabei in einem Zeitfenster erhält, regelt das Crawl Budget. Crawling und Aufnahme sind dabei nicht dasselbe: Den vollständigen, mehrstufigen Prozess der Aufnahme in Googles Datenbestand inklusive noindex-Steuerung behandelt ein eigener Beitrag. Einmal aufgenommen, bleibt eine Seite jedoch nicht statisch, denn Google hält den gesamten Index laufend frisch.

Wie aktualisiert Google seinen Index?

Google aktualisiert seinen Index heute kontinuierlich. Möglich macht das die Infrastruktur namens Caffeine, die im Juni 2010 eingeführt wurde. Davor war der Index in mehreren Schichten organisiert, die nur im Block neu berechnet wurden. Anfang der 2000er dauerte ein solcher Durchlauf mal vier Monate, später rund einen Monat.

Caffeine löste dieses Schichtenmodell durch inkrementelle Indexierung ab. Jede Seite wird einzeln gecrawlt und kann kurz nach der Veröffentlichung in den Index gelangen. Das Ergebnis waren laut Google rund 50 Prozent frischere Suchergebnisse. Seither werden aktuelle Inhalte praktisch in Echtzeit verarbeitet, statt auf den nächsten Index-Neuaufbau zu warten. Diese Aktualität gilt nicht nur für den Web-Index, sondern für mehrere parallel geführte Datenbestände.

Welche Indizes betreibt Google neben dem Web-Index?

Google führt nicht einen einzigen Index, sondern mehrere spezialisierte Datenbestände für unterschiedliche Inhaltstypen. Fünf davon prägen die tägliche Suche besonders und speisen sich aus Crawling, Partnerschaften, Datenfeeds und Googles eigener Faktensammlung:

  • Bilder-Index: Erfasst Bilder über Alt-Texte, Dateinamen und Kontext, kombiniert mit Bilderkennung per Computer Vision.
  • Video-Index: Benötigt eine Video-Sitemap oder strukturierte Daten (VideoObject) und erschließt Bewegtbild für die Suche.
  • News-Index: Ein separater, besonders schnell aktualisierter Bestand für aktuelle Nachrichten.
  • Buch-Index: Millionen digitalisierter Bücher aus Bibliotheken über Google Books.
  • Knowledge Graph: Googles Wissensdatenbank über Entitäten und Fakten, Grundlage für Wissens-Panels.

So unterschiedlich diese Indizes sind, sie beruhen alle auf demselben Grundprinzip, das sich gerade von Grund auf wandelt.

Vom Inverted Index zum Vektor-Index

Der klassische invertierte Index gleicht Wörter ab. Moderne Suche ergänzt ihn um Vektor-Indizes, die Bedeutung statt reiner Zeichenketten abbilden. Dabei wird jeder Text in ein sogenanntes Embedding übersetzt, einen Zahlenvektor mit typischerweise 384 bis 4096 Dimensionen. Inhalte mit ähnlicher Bedeutung liegen in diesem Vektorraum nahe beieinander, auch wenn sie kein gemeinsames Wort teilen.

Dieses Dense Retrieval findet Treffer über Nächste-Nachbarn-Verfahren (k-Nearest-Neighbor), beschleunigt durch Index-Strukturen wie HNSW. Google integriert semantisches Verständnis seit Jahren schrittweise: RankBrain brachte 2015 erstmals maschinelles Lernen in die Sortierung, das Sprachmodell BERT folgte 2019 für das Verständnis ganzer Sätze, und Verfahren wie MUVERA erweitern die Suche um mehrteilige Vektor-Darstellungen. Dieselbe Technik trägt heute die Antworten großer Sprachmodelle, deren Wissensabruf über Retrieval Augmented Generation auf vektorbasierten Indizes aufsetzt. Aus diesem technischen Fundament ergibt sich für die Suchmaschinenoptimierung eine klare Konsequenz.

Was bedeutet der Suchmaschinenindex für SEO?

Die Aufnahme in den Index ist die absolute Grundvoraussetzung jeder Optimierung. Ohne Indexierung nützen weder Content noch Backlinks etwas, weil die Seite gar nicht erst in den Treffern auftauchen kann. Daraus ergeben sich drei Schwerpunkte, an denen jede technische Optimierung noch vor der eigentlichen Inhaltsarbeit ansetzt:

  • Technische Erreichbarkeit: Eine saubere technische SEO sorgt dafür, dass Crawler relevante Seiten finden und korrekt rendern können.
  • Indexhygiene: Dünne, doppelte und irrelevante Seiten gehören per noindex aus dem Index, damit Qualität und Crawl Budget nicht verwässern.
  • Kontrolle: Ein systematischer SEO-Audit deckt auf, welche URLs tatsächlich indexiert sind und wo Lücken bestehen.

Zu unterscheiden ist der technische Suchmaschinenindex vom Sichtbarkeitsindex, einer Kennzahl von Tools wie Sistrix, die nicht den Datenbestand selbst, sondern die geschätzte Sichtbarkeit einer Domain misst. sagemedia berücksichtigt beide Ebenen in jeder SEO-Strategie. Die Organic-Ovation Methode verbindet technische Indexierbarkeit, semantische Tiefe und Nutzersignale. Die Optimierung für KI-Suchsysteme erweitert dieses Fundament auf die vektorbasierten Indizes generativer Antwortmaschinen.

Wie prüfe ich, ob meine Seite im Suchmaschinenindex ist?

Zwei Wege. Erstens die Eingabe von site:example.com/url in Google, die nur indexierte Seiten zeigt. Zweitens der Seiten-Bericht in der Google Search Console, der für jede URL den Indexierungsstatus samt Begründung ausweist.

Ist jede gecrawlte Seite automatisch im Index?

Nein. Crawling ist nur die Entdeckung. Erst nach der Analyse entscheidet Google, ob eine Seite aufgenommen wird. Duplicate Content, dünner Inhalt oder eine noindex-Direktive führen dazu, dass eine gecrawlte Seite nicht im Index landet.

Wie viele Seiten umfasst der Google-Index?

Google nennt offiziell hunderte Milliarden Seiten bei einer Größe von über 100 Millionen Gigabyte. Im Kartellverfahren 2023 war von rund 400 Milliarden Dokumenten die Rede. Die exakte Zahl schwankt täglich, da der Index kontinuierlich wächst und bereinigt wird.

Was ist der Unterschied zwischen Index und Ranking?

Der Index ist die Speicherung, das Ranking die Sortierung. Im Index liegen alle aufgenommenen Seiten ungeordnet als Datenbestand. Erst bei einer konkreten Suchanfrage bewertet Google die passenden indexierten Seiten nach hunderten Signalen und bringt sie in eine Reihenfolge.

Gibt es einen eigenen Index für Bilder und Videos?

Ja. Google betreibt neben dem Web-Index separate Indizes für Bilder, Videos und Nachrichten. Bilder werden über Alt-Texte, Dateinamen und Bilderkennung erschlossen, Videos über strukturierte Daten oder eine Video-Sitemap.

Geschrieben von

André Schäfer

André Schäfer

Geschäftsführer & SEO-Stratege

André Schäfer ist Gründer der sagemedia GmbH und entwickelte die Organic-Ovation Methode zur Suchmaschinenoptimierung. 2021 gewann er den deutschen SEO-Contest. Seit 2009 optimiert er Unternehmenswebsites für Google-Sichtbarkeit.

SEO seit 2009 SEO-Contest Gewinner 2021 100.000+ Rankings
Nächster Schritt

SEO nicht nur verstehen, sondern umsetzen?

Wir machen die Theorie zur Praxis. In einem kostenlosen Erstgespräch zeigen wir dir, wie diese Konzepte konkret für dein Unternehmen funktionieren.