KI & NLP ~12 Min. Lesezeit

BERT

BERT ist Googles KI-Sprachmodell zur kontextbezogenen Analyse von Suchanfragen. Funktionsweise, Einfluss auf Rankings und Longtail-Queries.

BERT (Bidirectional Encoder Representations from Transformers) ist ein 2018 von Jacob Devlin und seinem Team bei Google AI veröffentlichtes Sprachmodell. BERT analysiert Wörter bidirektional, gleichzeitig von links nach rechts und von rechts nach links, und versteht dadurch Wortbedeutungen im vollständigen Satzkontext. Google integrierte BERT im Oktober 2019 in die Suche und verarbeitet damit nach eigenen Angaben rund 10 Prozent aller englischsprachigen Suchanfragen. Seit Dezember 2019 wirkt BERT in allen Sprachen. Für SEO markiert BERT den Wendepunkt von Keyword-Matching zu kontextbezogenem Sprachverständnis in der Suche.

Was ist BERT?

BERT ist ein vortrainiertes Sprachmodell auf Basis der Transformer-Architektur, das Wortbedeutungen aus dem vollständigen Satzkontext ableitet statt Wörter isoliert zu verarbeiten. Jacob Devlin, Ming-Wei Chang, Kenton Lee und Kristina Toutanova veröffentlichten das Paper “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding” im Oktober 2018.

AttributDetail
Vollständiger NameBidirectional Encoder Representations from Transformers
AutorenJacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova
InstitutionGoogle AI Language
VeröffentlichungOktober 2018 (arXiv), ACL 2019
BERT-Base110 Millionen Parameter, 12 Transformer-Layer
BERT-Large340 Millionen Parameter, 24 Transformer-Layer
TrainingsdatenEnglische Wikipedia (2,5 Mrd. Wörter) + BookCorpus (800 Mio. Wörter)
ArchitekturTransformer Encoder (bidirektional)
Google-Suche seitOktober 2019 (Englisch), Dezember 2019 (alle Sprachen)
Open SourceJa, verfügbar auf GitHub und TensorFlow Hub

Das Akronym BERT beschreibt die drei Kerneigenschaften des Modells: “Bidirectional” verweist auf die gleichzeitige Verarbeitung von linkem und rechtem Kontext. “Encoder” bezeichnet den Architektur-Teil des Transformers, der Text analysiert statt generiert. “Representations” steht für die kontextuellen Wort-Embeddings, die BERT erzeugt. Die Transformer-Grundlage geht auf das Paper “Attention Is All You Need” von Vaswani et al. (2017, Google Brain) zurück.

Wie funktioniert BERT?

BERT lernt Sprachverständnis durch zwei Vortrainingsaufgaben: Masked Language Modeling (MLM) und Next Sentence Prediction (NSP). Nach dem Vortraining lässt sich das Modell per Fine-Tuning auf spezifische Aufgaben wie Fragebeantwortung oder Textklassifikation anpassen.

Masked Language Modeling (MLM)

Im Training werden 15 Prozent der Wörter eines Satzes maskiert. Von diesen maskierten Positionen werden 80 Prozent durch ein [MASK]-Token ersetzt, 10 Prozent durch ein zufälliges Wort und 10 Prozent bleiben unverändert. BERT lernt, die maskierten Wörter aus dem umgebenden Kontext vorherzusagen.

Im Satz “Die [MASK] steigt im Sommer auf über 30 Grad” erkennt BERT aus dem Kontext (Sommer, Grad, steigt), dass “Temperatur” das maskierte Wort ist. Die bidirektionale Verarbeitung ist entscheidend: BERT liest “steigt” und “auf über 30 Grad” rechts vom maskierten Wort und “Die” links davon gleichzeitig. Unidirektionale Modelle wie GPT hätten in diesem Fall nur den linken Kontext (“Die”) zur Verfügung.

Next Sentence Prediction (NSP)

Die zweite Trainingsaufgabe prüft, ob zwei Sätze in einem logischen Zusammenhang stehen. BERT erhält Satzpaare und bestimmt, ob Satz B tatsächlich auf Satz A folgt oder ein zufällig gewählter Satz ist. NSP trainiert das Verständnis für Beziehungen zwischen Sätzen, was für Aufgaben wie Fragebeantwortung und Textklassifikation relevant ist.

Spätere Forschung zeigte, dass NSP weniger entscheidend ist als zunächst angenommen. RoBERTa (Facebook AI, 2019) erreichte bessere Ergebnisse ohne NSP-Training.

Self-Attention-Mechanismus

Der Self-Attention-Mechanismus berechnet für jedes Wort einen Gewichtungswert zu allen anderen Wörtern im Satz. Im Satz “Das Tier überquerte die Straße, weil es müde war” berechnet Self-Attention, dass “es” sich auf “Tier” bezieht, nicht auf “Straße”. BERT-Large verwendet 16 Attention Heads pro Layer, insgesamt 384. Diese parallele Verarbeitung ermöglicht es, mehrdeutige Sätze zu disambiguieren, ohne den Text sequenziell zu lesen.

Das Vortraining erfolgte auf 16 TPU-Chips über 4 Tage (BERT-Large). Nach dem Vortraining kann BERT per Fine-Tuning in wenigen Stunden auf spezifische Aufgaben angepasst werden, ohne die Architektur zu verändern.

Wann hat Google BERT in die Suche integriert?

Google integrierte BERT am 25. Oktober 2019 in die englischsprachige Suche. Pandu Nayak, Google Fellow und VP of Search, kündigte das Update im offiziellen Google-Blog an. Im Dezember 2019 rollte Google BERT für alle Sprachen aus.

Das BERT-Update betraf sowohl das Ranking organischer Ergebnisse als auch die Auswahl von Featured Snippets. Google bezeichnete es als den größten Fortschritt in der Suche seit fünf Jahren und als eine der größten Veränderungen in der Geschichte der Google-Suche.

Vor BERT behandelte Google viele Funktionswörter (Präpositionen, Negationen, Artikel) als irrelevant. Die Suchanfrage “Kann man mit einem Visum aus Brasilien in die USA reisen” wurde vor BERT so interpretiert, als ginge es um Reisen aus den USA nach Brasilien. BERT erkennt, dass “aus” sich auf die Herkunft des Visums bezieht, nicht auf die Reiserichtung. Diese Fähigkeit zur Disambiguierung von Präpositionen und Kontextwörtern betrifft laut Google rund 10 Prozent aller englischsprachigen Suchanfragen.

Welche Suchanfragen betrifft BERT?

BERT verbessert die Ergebnisqualität bei Suchanfragen, deren Bedeutung von grammatischer Struktur, Präpositionen oder Kontextwörtern abhängt. Longtail-Anfragen mit 4 und mehr Wörtern profitieren am stärksten, weil sie mehr syntaktische Struktur enthalten.

Vier Kategorien von Suchanfragen zeigen die größten Verbesserungen durch BERT. Die Gemeinsamkeit aller betroffenen Queries ist, dass ihre Bedeutung nicht allein aus den enthaltenen Keywords ablesbar ist, sondern erst durch die grammatische Beziehung der Wörter zueinander entsteht.

  • Präpositionen und Kontextwörter: "Parken auf dem Gehweg Strafe" vs. "Parken neben dem Gehweg erlaubt". Die Präpositionen "auf" und "neben" verändern die Bedeutung fundamental. Vor BERT lieferten beide Anfragen ähnliche Ergebnisse.
  • Negationen: "Visum USA ohne Interview" vs. "Visum USA mit Interview". BERT erkennt die Negation "ohne" als bedeutungsveränderndes Element. Ältere Algorithmen ignorierten Stoppwörter wie "ohne" häufig.
  • Konversationelle Anfragen: "Kann ein Optiker eine Augenkrankheit diagnostizieren" erfordert Verständnis der gesamten Satzstruktur. Keyword-basierte Systeme extrahierten lediglich "Optiker" und "Augenkrankheit" als relevante Terme.
  • Pronomenauflösung: "Der Arzt sagte der Patientin, dass sie wiederkommen soll. Wer soll wiederkommen?" BERT löst "sie" korrekt auf "Patientin" auf, weil die bidirektionale Kontextanalyse die grammatische Rolle jedes Wortes erfasst.

Wie unterscheidet sich BERT von RankBrain und Hummingbird?

BERT, RankBrain und Hummingbird adressieren unterschiedliche Aspekte der Query-Verarbeitung in Googles Suchsystem. Alle drei sind gleichzeitig aktiv und ergänzen sich gegenseitig, statt einander zu ersetzen.

KriteriumHummingbird (2013)RankBrain (2015)BERT (2019)
TypSuch-AlgorithmusMachine-Learning-SignalNLP-Sprachmodell
FunktionGesamte Query-VerarbeitungUnbekannte Suchanfragen interpretierenKontextbezogenes Sprachverständnis
MethodeSemantische Suche statt Keyword-MatchingVektoren für Query-ÄhnlichkeitBidirektionale Transformer-Analyse
FokusGesamtbedeutung der AnfrageNeue, nie gesehene QueriesGrammatische Struktur und Präpositionen
LernfähigkeitRegelbasiertLernt aus NutzerdatenVortrainiert auf 3,3 Mrd. Wörtern

Hummingbird war Googles erster Schritt von Keyword-Matching zu semantischer Suche. Der Algorithmus interpretiert die Gesamtbedeutung einer Anfrage statt einzelner Wörter. RankBrain ergänzt Hummingbird durch Machine-Learning-basierte Interpretation von Suchanfragen, die Google noch nie gesehen hat. BERT fügt ein tiefes Sprachverständnis hinzu, das grammatische Beziehungen, Präpositionen und Negationen in Suchanfragen erfasst.

Wie unterscheiden sich BERT und GPT?

BERT liest einen Satz gleichzeitig in beide Richtungen und extrahiert Bedeutung (Natural Language Understanding). GPT liest ausschließlich von links nach rechts und generiert Text (Natural Language Generation). BERT verwendet nur den Encoder-Teil der Transformer-Architektur, GPT nur den Decoder-Teil.

KriteriumBERTGPT
ArchitekturTransformer EncoderTransformer Decoder
LeserichtungBidirektional (links + rechts gleichzeitig)Unidirektional (links nach rechts)
StärkeSprachverständnis (NLU)Textgenerierung (NLG)
VortrainingMasked Language Modeling + NSPAutoregressive Language Modeling
Parameter (Base)110 Millionen117 Millionen (GPT-1)
Einsatz bei GoogleQuery-Interpretation, Passage RetrievalNicht direkt (Google nutzt eigene Modelle)

Konkretes Beispiel: Bei der Suchanfrage “Kann man mit einem Visum aus Brasilien in die USA reisen” erkennt BERT, dass “aus” sich auf die Herkunft des Visums bezieht. GPT würde diese Anfrage als Aufforderung zur Textproduktion interpretieren und eine Antwort generieren. BERT dekonstruiert Bedeutung, GPT konstruiert Ausdruck. Beide Ansätze verschmelzen in neueren Sprachmodellen mit Encoder-Decoder-Architektur, die Verständnis und Generierung kombinieren.

Wie beeinflusst BERT die Suchmaschinenoptimierung?

BERT verschiebt den Ranking-Fokus von exakter Keyword-Übereinstimmung zur semantischen Relevanz. Seiten, die die Absicht hinter einer Suchanfrage inhaltlich vollständig beantworten, ranken besser als Seiten mit reinem Keyword-Matching.

Die praktischen Konsequenzen für die gezielte OnPage-Optimierung betreffen vier Bereiche. BERT verändert nicht die Spielregeln grundsätzlich, sondern verstärkt ein Prinzip, das Google seit Hummingbird verfolgt: Inhalte, die Nutzerfragen präzise beantworten, erhalten bessere Rankings als Inhalte, die lediglich Keywords akkumulieren.

  • Natürliche Sprache schlägt Keyword-Stuffing: BERT wertet den gesamten Satzkontext aus. "Günstige Flüge buchen Berlin" und "Wo kann ich günstige Flüge ab Berlin buchen" führen zum selben Ergebnis, weil BERT die Intention versteht. Keyword-Wiederholungen bringen keinen Vorteil mehr.
  • Longtail-Anfragen profitieren am stärksten: Anfragen mit 4 und mehr Wörtern enthalten mehr grammatische Struktur, die BERT interpretieren kann. Seiten mit themenumfassendem Content erhalten bei diesen Queries mehr Sichtbarkeit.
  • Negationen und Präpositionen zählen: Vor BERT ignorierte Google häufig Wörter wie "nicht", "ohne" oder "aus". BERT erkennt den Bedeutungsunterschied zwischen "Reise nach Paris" und "Reise von Paris". Content muss diese Nuancen abbilden.
  • Strukturierte Antworten für Featured Snippets: BERT bestimmt mit, welche Textpassage als Featured Snippet erscheint. Klare Fragestellungen als Zwischenüberschriften mit direkten, präzisen Antworten von 30 bis 40 Wörtern im ersten Absatz erhöhen die Snippet-Chance.

BERT löst Eigennamen und Konzepte im Text über bidirektionale Kontextanalyse auf. Im Satz “Paris Hilton besuchte Paris” erkennt BERT durch Self-Attention, dass das erste “Paris” von “Hilton” begleitet wird (Person) und das zweite “Paris” Objekt von “besuchte” ist (Ort).

Im Pre-Training lernt BERT typische Entity-Muster: “Apple” gefolgt von “CEO” oder “Aktie” verweist auf das Unternehmen, “Apple” gefolgt von “Kuchen” oder “Baum” auf die Frucht. Diese Fähigkeit bildet die Grundlage dafür, wie Google Suchanfragen den richtigen Knowledge-Graph-Entitäten zuordnet.

BERT bestimmt ebenfalls, welche Textpassage als Featured Snippet über den organischen Ergebnissen erscheint. Das Modell analysiert die semantische Nähe zwischen einer Suchanfrage und den verfügbaren Textpassagen auf indexierten Seiten. Seiten, die Fragen direkt unter einer H2- oder H3-Überschrift beantworten und im folgenden Absatz eine kompakte Antwort liefern, haben eine höhere Wahrscheinlichkeit, in die Featured-Snippet-Box oder die People-Also-Ask-Sektion aufgenommen zu werden.

Welche BERT-Varianten gibt es?

Es gibt über 20 BERT-Varianten, die das Originalmodell für spezifische Anwendungsfälle, Sprachen oder Effizienzanforderungen optimieren. Drei Varianten haben sich als besonders relevant für die Praxis etabliert.

ModellEntwicklerKern-ÄnderungLeistung vs. BERT
RoBERTaFacebook AI (2019)10x mehr Trainingsdaten (160 GB), dynamische Maskierung, kein NSP+2-4 Punkte auf GLUE-Benchmark
DistilBERTHugging Face (2019)40 % weniger Parameter, Knowledge Distillation97 % der BERT-Leistung bei 60 % der Größe
Multilingual BERTGoogle AI (2018)Trainiert auf 104 Sprachen (Wikipedia-Daten)Sprachübergreifendes Verständnis ohne explizites Cross-Lingual-Training

RoBERTa nutzt ein Byte-Pair-Encoding-Vokabular mit 50.000 Einträgen (BERT: 30.000) und trainiert mit einer Batch-Größe von 8.000 statt 256. DistilBERT komprimiert BERT durch Knowledge Distillation und eignet sich für Anwendungen mit begrenzten Ressourcen, etwa mobile Geräte oder Echtzeit-Klassifikation.

Multilingual BERT (mBERT) verarbeitet 104 Sprachen mit einem gemeinsamen Vokabular von 110.000 WordPiece-Tokens. Die Besonderheit: mBERT zeigt sprachübergreifende Transferleistung, obwohl es nicht explizit dafür trainiert wurde. Ein auf englischen Daten fine-getuntes mBERT-Modell erzielt auf deutschen oder französischen Testdaten erstaunlich hohe Ergebnisse. Für die Google-Suche ermöglicht diese Eigenschaft, BERT-Fähigkeiten auf Sprachen anzuwenden, für die weniger Trainingsdaten verfügbar sind.

Domänenspezifische Varianten wie BioBERT (biomedizinische Texte), SciBERT (wissenschaftliche Paper) und LegalBERT (juristische Dokumente) sind Fine-Tunings auf Fachtexten, die für spezialisierte Anwendungen höhere Genauigkeit erreichen als das allgemeine BERT-Modell.

Was kam nach BERT in Googles Suchsystem?

BERT war Googles erster großer NLP-Durchbruch in der Suche, die Entwicklung ging jedoch mit MUM, Passage Ranking und Gemini weiter. BERT bleibt 2026 als Kernbestandteil der Query-Interpretation aktiv, ist aber in eine größere Pipeline eingebettet.

Die Architektur-Hierarchie in Googles Suchsystem hat sich seit 2019 in drei Stufen weiterentwickelt. Jede Stufe baut auf den Prinzipien der vorherigen auf, erweitert aber den Funktionsumfang erheblich.

  • Passage Ranking (Februar 2021): Google rankt einzelne Passagen innerhalb eines Dokuments, nicht nur die Gesamtseite. BERT identifiziert die relevanteste Passage für eine Suchanfrage, auch wenn der Rest des Dokuments weniger relevant ist.
  • MUM (Mai 2021): Multitask Unified Model basiert auf der T5-Architektur und ist laut Google 1.000x leistungsfähiger als BERT. MUM versteht 75 Sprachen gleichzeitig und verarbeitet Text, Bilder und Video multimodal. MUM kann gleichzeitig verstehen und generieren.
  • Gemini (2024): Googles multimodales KI-Modell steuert den AI Mode in der Google-Suche mit vollständiger Antwortgenerierung. Gemini synthetisiert Informationen aus mehreren Quellen zu natürlichsprachlichen Antworten.

BERT ist nicht abgelöst, sondern in diese größere Pipeline integriert. Die Grundprinzipien, die BERT etabliert hat (kontextuelles Sprachverständnis, Intentionserkennung, semantische Relevanz statt Keyword-Abgleich), gelten in MUM und Gemini erst recht. Eine gezielte Optimierung für generative KI-Suche muss alle drei Ebenen berücksichtigen.

Häufig gestellte Fragen zu BERT

Kann man für BERT optimieren?

Nicht direkt. BERT ist kein Ranking-Faktor, den man gezielt bedienen kann, sondern ein Sprachverständnis-Modell, das Googles Interpretation von Suchanfragen verbessert. Die indirekte Optimierung besteht darin, Inhalte so zu schreiben, dass sie die Suchintention vollständig beantworten: natürliche Sprache, thematische Tiefe, klare Satzstrukturen und die Abdeckung verwandter Entitäten. Keyword-Stuffing und unnatürliche Formulierungen wirken kontraproduktiv.

Ist BERT noch relevant in 2026?

Ja. BERT verarbeitet weiterhin die initiale Query-Interpretation in Googles Suchsystem. Auch wenn MUM und Gemini für komplexere Aufgaben zuständig sind, bleibt BERT die Basis für das semantische Verständnis einzelner Suchanfragen. Wer für BERT-Prinzipien optimiert, optimiert automatisch auch für MUM und Gemini.

Wofür wird BERT außerhalb der Suche eingesetzt?

BERT hat seit 2018 zahlreiche NLP-Aufgaben verändert. Die wichtigsten Anwendungsfelder sind Fragebeantwortung (Question Answering), Named Entity Recognition mit F1-Scores über 92 Prozent auf dem CoNLL-2003-Benchmark, Sentimentanalyse mit über 94 Prozent Genauigkeit auf dem SST-2-Benchmark, Textzusammenfassung (BertSum) und Disambiguierung von Wortbedeutungen. BERT übertraf bei seiner Veröffentlichung menschliche Leistung auf dem SQuAD-2.0-Benchmark für Fragebeantwortung.

Ist BERT Open Source?

Ja. Google veröffentlichte BERT als Open-Source-Modell auf GitHub und TensorFlow Hub. Entwickler können BERT herunterladen, per Fine-Tuning auf eigene Daten anpassen und in eigene Anwendungen integrieren. Diese Offenheit führte zur Entstehung von über 20 BERT-Varianten durch die Forschungsgemeinschaft.

André Schäfer

Geschrieben von

André Schäfer

Geschäftsführer & SEO-Stratege

André Schäfer (*1990, Kronach) ist Gründer der sagemedia GmbH in Bad Staffelstein. Ehemaliger E-Sportler (n!faculty, deutsches Nationalteam) und seit 2009 im SEO tätig. 2021 gewann er den deutschen SEO-Contest, 2022 Top-5 beim SommerSEO. Sein Fokus: datengetriebene SEO-Strategien mit der Organic-Ovation Methode.

Nächster Schritt

SEO nicht nur verstehen, sondern umsetzen?

Wir machen die Theorie zur Praxis. In einem kostenlosen Erstgespräch zeigen wir dir, wie diese Konzepte konkret für dein Unternehmen funktionieren.