Technisches SEO 04. April 2026 · 10 Min. Lesezeit

robots.txt richtig konfigurieren: Die vollständige Anleitung

Die robots.txt ist eine der mächtigsten und gleichzeitig am häufigsten falsch eingesetzten Dateien im Technischen SEO. Ein einzelner Fehler kann dazu führen, dass Google deine gesamte Website nicht mehr crawlt. Dieser Artikel zeigt dir, wie du sie korrekt konfigurierst.

robots.txt richtig konfigurieren SEO Anleitung

Was ist die robots.txt und wozu dient sie?

Die robots.txt ist eine einfache Textdatei, die im Wurzelverzeichnis deiner Website liegt — also unter https://deine-website.de/robots.txt. Sie gibt Suchmaschinen-Crawlern Anweisungen, welche Teile deiner Website gecrawlt werden dürfen und welche nicht.

Das sogenannte Robots Exclusion Protocol (REP) legt fest, wie diese Datei aufgebaut sein muss. Googles Crawler (Googlebot), Bings Crawler (Bingbot) und alle anderen seriösen Bots lesen diese Datei, bevor sie deine Website crawlen, und halten sich — in der Regel — an die darin enthaltenen Anweisungen.

Wichtig: Die robots.txt ist kein Sicherheitsmechanismus. Sie verhindert nur das Crawlen, nicht das Indexieren. Wenn andere Websites auf eine gesperrte URL verlinken, kann Google sie trotzdem in den Suchergebnissen anzeigen — ohne Inhalt, aber als URL. Für echte Vertraulichkeit brauchst du serverseitige Zugangsbeschränkungen.

Die Grundstruktur einer robots.txt

Eine robots.txt besteht aus Blöcken, sogenannten Records. Jeder Block beginnt mit einer User-agent-Zeile und enthält beliebig viele Disallow- und Allow-Direktiven:

# Dieser Block gilt für alle Crawler
User-agent: *
Disallow: /admin/
Disallow: /tmp/
Allow: /admin/public/

# Dieser Block gilt nur für Googlebot
User-agent: Googlebot
Disallow: /no-google/

# Sitemap-Verweis (empfohlen!)
Sitemap: https://deine-website.de/sitemap.xml

Die wichtigsten Direktiven erklärt

  • User-agent: Gibt an, für welchen Crawler der folgende Block gilt. * steht für alle Crawler. Bekannte Werte: Googlebot, Bingbot, GPTBot.
  • Disallow: Verbietet das Crawlen des angegebenen Pfades. Ein leeres Disallow (Disallow:) erlaubt alles.
  • Allow: Erlaubt das Crawlen, auch wenn ein übergeordneter Pfad gesperrt ist. Hat Vorrang vor Disallow bei spezifischeren Pfaden.
  • Sitemap: Gibt den Speicherort deiner Sitemap.xml an. Nicht alle Crawler folgen dieser Direktive, aber Google und Bing tun es.
  • Crawl-delay: Empfiehlt dem Crawler eine Pause (in Sekunden) zwischen Anfragen. Googlebot ignoriert diese Direktive — für Google nutzt du die Search Console.

💡 Tipp: Sitemap-Direktive immer hinzufügen

Füge am Ende jeder robots.txt eine Sitemap:-Zeile ein. Das hilft Suchmaschinen, deine Sitemap schneller zu finden — auch wenn sie in der Search Console bereits hinterlegt ist. Wie du eine sitemap.xml erstellst und bei Google einreichst, erklären wir in unserem Schritt-für-Schritt-Guide.

Häufige Anwendungsfälle mit Beispielen

1. Adminbereiche sperren

Backend-Bereiche wie das WordPress-Admin-Panel sollte kein Crawler indexieren — sie bieten keinen SEO-Wert und können Sicherheitsrisiken offenlegen:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-login.php

Beachte: Die admin-ajax.php muss explizit erlaubt werden, da manche WordPress-Plugins sie für Frontend-Funktionen nutzen.

2. Such- und Filterergebnisse sperren

Interne Suchergebnisseiten und URL-Parameter erzeugen oft tausende von Duplicate-Content-URLs. Diese solltest du generell sperren:

User-agent: *
Disallow: /search?
Disallow: /?s=
Disallow: /filter/

3. Staging- und Testumgebungen schützen

Wenn deine Staging-Umgebung unter einer eigenen Domain läuft (z.B. staging.deine-website.de), sollte sie vollständig gesperrt werden:

# Komplette Sperrung aller Crawler
User-agent: *
Disallow: /

4. KI-Crawler blockieren

Seit 2023 crawlen KI-Anbieter das Web für Trainingsdaten. Wer das nicht möchte, kann diese Crawler gezielt blockieren:

User-agent: GPTBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: anthropic-ai
Disallow: /

Die wichtigsten Fehler, die du vermeiden musst

⚠️ Fehler 1: Alle Crawler versehentlich sperren

Ein Disallow: / unter User-agent: * sperrt deine gesamte Website für alle Crawler. Das ist der schlimmste Fehler den du machen kannst. Prüfe regelmäßig deine robots.txt auf diesen Eintrag.

⚠️ Fehler 2: Crawling blockieren ≠ Indexierung verhindern

Viele Webmaster blockieren URLs in der robots.txt, die sie nicht in Google sehen wollen. Das funktioniert nicht zuverlässig. Wenn andere Seiten auf die URL verlinken, kann Google sie trotzdem indexieren. Für echten Ausschluss: noindex Meta-Tag oder X-Robots-Tag nutzen.

⚠️ Fehler 3: CSS und JS blockieren

Ältere robots.txt-Konfigurationen blockierten oft /wp-content/ oder Ressourcen-Ordner. Das verhindert, dass Google CSS und JavaScript lädt — und kann das Rendering und damit das Ranking verschlechtern. CSS- und JS-Ordner immer freigeben.

⚠️ Fehler 4: Kein Sitemap-Verweis

Ohne Sitemap:-Direktive muss Google deine Sitemap selbst finden. Das funktioniert meistens, aber langsamer. Füge immer einen Sitemap-Verweis hinzu.

Wie du die robots.txt für typische CMS konfigurierst

WordPress

WordPress erstellt automatisch eine virtuelle robots.txt, wenn keine physische Datei vorhanden ist. Mit Plugins wie Yoast SEO oder Rank Math kannst du sie über das Backend bearbeiten. Eine gute WordPress-robots.txt sieht so aus:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-includes/
Allow: /wp-content/uploads/
Disallow: /wp-login.php
Disallow: /?s=
Disallow: /search/

Sitemap: https://deine-website.de/sitemap.xml

Shopware / WooCommerce

Bei Online-Shops sind besonders interne Such-, Filter- und Warenkorb-URLs zu sperren, um Crawl-Budget zu schonen:

User-agent: *
Disallow: /checkout/
Disallow: /cart/
Disallow: /my-account/
Disallow: /?add-to-cart=
Disallow: /?filter_

Sitemap: https://dein-shop.de/sitemap.xml

robots.txt testen und überwachen

Nach jeder Änderung an der robots.txt solltest du sie testen. Google bietet dafür das robots.txt-Tester-Tool in der Search Console an. Dort siehst du sofort, ob eine URL gecrawlt werden darf oder gesperrt ist.

So gehst du vor:

  1. Öffne die Google Search Console
  2. Navigiere zu Indexierung → robots.txt
  3. Gib eine URL ein und klicke auf "Testen"
  4. Du siehst sofort, ob Googlebot die URL crawlen darf

💡 Tipp: robots.txt regelmäßig prüfen

Bei CMS-Updates oder Plugin-Installationen kann die robots.txt unbeabsichtigt verändert werden. Prüfe sie mindestens einmal pro Monat — oder nutze die automatische SEO-Analyse von Shift07, die Probleme in der robots.txt automatisch erkennt.

robots.txt vs. noindex: Was wann verwenden?

Eine häufige Frage ist, wann man die robots.txt verwenden sollte und wann das noindex-Meta-Tag. Die Antwort ist klar:

  • robots.txt Disallow: Verhindert das Crawlen. Die URL kann trotzdem indexiert werden (wenn sie verlinkt ist). Sinnvoll für Ressourcen die viel Crawl-Budget verbrauchen aber keinen Inhalt haben (Bilder-Ordner bei großen Archiven, API-Endpunkte, Admin-Bereiche).
  • noindex Meta-Tag: Verhindert die Indexierung. Die URL wird gecrawlt, aber nicht in die Suchergebnisse aufgenommen. Sinnvoll für Danke-Seiten, interne Suche, Tag-Archive, Pagination.
  • Beides zusammen: Nie! Wenn du eine URL via Disallow sperrst und auch ein noindex-Tag setzt, kann Google das noindex-Tag nicht lesen, weil er die Seite nicht crawlen darf. Das noindex wird ignoriert.

Für eine vollständige Kontrolle über die Indexierung empfiehlt sich der Einsatz von Canonical-Tags in Kombination mit dem noindex-Meta-Tag — ohne den Crawling-Zugang zu sperren.

Zusammenfassung: Die 5 Regeln für eine gute robots.txt

  1. Sitemap-Direktive immer hinzufügen — Hilft Crawlern, deine wichtigen Seiten schneller zu finden.
  2. Nur nicht-indexierungswürdige Pfade sperren — Admin-Bereiche, API-Endpunkte, Duplikate.
  3. CSS und JavaScript nie sperren — Google braucht diese Ressourcen für korrektes Rendering.
  4. Nie robots.txt + noindex kombinieren — Eines von beidem, nie beides zusammen.
  5. Regelmäßig testen — Nach CMS-Updates oder Plugin-Änderungen sofort prüfen.

Willst du prüfen, ob deine Website weitere technische SEO-Probleme hat? Mit der kostenlosen Shift07 SEO-Analyse siehst du in Sekunden alle wichtigen Schwachstellen — von der robots.txt über Meta-Tags bis hin zu strukturierten Daten.

robots.txt + alle SEO-Faktoren auf einen Blick prüfen

Shift07 analysiert deine Website automatisch auf robots.txt-Probleme, fehlende Meta-Tags, Ladezeit-Issues und mehr. Kostenlos, ohne Anmeldung.

Jetzt kostenlos analysieren
L

Laurenz Thümmler

Co-Founder von Shift07 · SEO & KI-Enthusiast