Inhaltsverzeichnis
Die robots.txt ist eine Textdatei im Root-Verzeichnis deiner Website, die Suchmaschinen-Crawlern sagt, welche Bereiche gecrawlt werden dürfen und welche nicht. Mit der robots.txt können einzelne Dateien, Unterverzeichnisse, komplette Verzeichnisse oder sogar Domains vom Crawling ausgeschlossen werden. Wichtig: Die robots.txt beeinflusst das Crawling, aber nicht das Indexieren. Sie ist das erste Dokument, das ein Bot abruft, wenn er die Website besucht.
Warum ist die robots.txt wichtig für SEO?
Crawl-Budget optimieren
Google hat pro Website ein begrenztes Crawl-Budget. Die robots.txt stellt sicher, dass Google nur relevante Inhalte crawlt und keine Ressourcen verschwendet, wie zum Beispiel auf:
- Filterseiten
- interne Suchseiten
- technische Verzeichnisse
- Duplicate-Parameter-URLs
Wichtig ist das Crawl-Budget vor allem für sehr große Websites mit mehr als einer Million Seiten, deren Inhalte sich etwa wöchentlich ändern, sowie für mittelgroße Websites mit über zehntausend Seiten, bei denen sich die Inhalte täglich aktualisieren.
Technische Bereiche schützen
Du kannst mit der robots.txt Crawler von Admin- oder Systembereichen fernhalten.
Zum Beispiel:
Disallow: /admin/
Disallow: /tmp/
robots.txt verhindert nicht die Indexierung
Good to know: Disallow blockiert nur den Crawl! Wenn die URL jedoch verlinkt ist, kann sie trotzdem im Index landen, aber ohne Inhalt.
Möchtest du die Seite komplett aus dem Index nehmen? Dann stelle auf der Seite selbst Meta-Robots auf noindex und blockiere sie nicht per robots.txt.
Google muss die Seite rendern können
Für die Suchmaschinenoptimierung ist wichtig, dass CSS, JavaScript und wichtige Assets niemals geblockt werden dürfen.
Sitemap in robots.txt angeben
Die Sitemap sollte immer in der robots.txt angegeben werden, da sie Google und anderen Suchmaschinen hilft, die Seitenstruktur besser zu verstehen und schnell alle wichtigen URLs zu finden. Durch den Sitemap-Hinweis erfährt der Crawler direkt beim Laden der robots.txt, wo die vollständige Übersicht aller index-relevanten Seiten liegt. Das verbessert nicht nur die Effizienz des Crawlings, sondern sorgt oft auch für eine schnellere Indexierung neuer Inhalte. Der Eintrag wird einfach am Ende der robots.txt platziert und sieht so aus:
Sitemap: https://www.wambo.com/sitemap.xml
Du kannst auch mehrere Sitemaps angeben – besonders nützlich bei großen Websites.
Was darf man auf keinen Fall blockieren? (Do-Not-Block-Liste)
Diese Bereiche/Dateien sollten immer gecrawlt werden, weil Google sie zum Rendern braucht:
❌ Nicht blockieren:
- CSS-Dateien
- JavaScript-Dateien
- Bilder (Icons, Logos, Produktbilder)
- wichtige Template- oder Theme-Ordner
- Mobile/Responsive Ressourcen
- Seiten, die Rankings erzielen sollen
- Sitemap.xml
Sonst kann Google deine Seite nicht korrekt darstellen, das folgt dementsprechend zum SEO-Verlust und kann dir Rankings kosten und weniger Conversions.
Checkliste für eine optimale robots.txt am Beispiel für WordPress
✔ Grundstruktur enthalten:
- User-agent
- Disallow / Allow
- Sitemap-Angabe
✔ Nur unnötige Bereiche blockieren:
- /wp-admin/
- /cgi-bin/
- /tmp/
- /search/
- /?filter=
- /?sort=
✔ Keine index-relevanten Inhalte blockieren:
- Blogartikel
- Produktseiten
- Kategorien
- wichtige Landingpages
✔ Technische Assets freigeben:
- CSS-Ordner
- JS-Ordner
- Bildordner
✔ robots.txt ist öffentlich – keine sensiblen Infos eintragen! Jeder kann sie einsehen.
✔ Immer in der Google Search Console testen:
- Tool: robots.txt Tester
Bekannte robots.txt Tester / Validatoren
Tool / Dienst
Kurzbeschreibung
ETTVI robots.txt Validator
Kostenloses Online-Tool: Einfach URL plus /robots.txt eingeben, User-Agent auswählen — prüft, ob bestimmte Bots Zugriff auf Seiten haben. ettvi.com/de
technicalseo
robots.txt Validator
Unkompliziert und einfach die robots.txt testen. Validator, als Browser-Extension. technicalseo.com/tools/robots-txt/
CLXON robots.txt Tester & Generator
Kostenloser Online-Tester + Generator: Du kannst Änderungen simulieren, testen und direkt eine neue robots.txt erzeugen. Gut für SEO-Admins und Entwickler. clxon.com/de/robots-txt-tester
Semust Robots.txt Tester
Einfache, schnelle Prüfung auf korrekte Konfiguration(in EN): Du gibst Deine Domain ein, und das Tool analysiert Deine robots.txt auf Fehler und Zugriffsbeschränkungen. Semust
Weitere Hinweise und Tools
Es gibt auch Browser-Extensions wie Live robots.txt Checker: Mit dieser Chrome-Erweiterung kannst Du direkt beim Besuch einer Webseite die robots.txt laden, ändern oder testen — praktisch für schnelle Checks. Einige der oben genannten Tools bieten zudem die Möglichkeit, eine robots.txt zu generieren — hilfreich, wenn Du eine neue Website aufbaust oder Deine Datei komplett neu schreiben willst.
Empfehlung: Wann welches Tool nutzen?
- Wenn Du einfach nur schnell checken willst, ob Deine Seite gecrawlt werden darf
→ robots.txt checker, Semust, technicalseo - Wenn Du Deine robots.txt mit mehreren Bots testen möchtest (z. B. Googlebot, Bingbot, andere)
→ ETTVI, CLXON - Wenn Du Änderungen simulieren willst oder eine neue Datei erstellst
→ CLXON oder Live robots.txt Checker - Wenn Du viele URLs gleichzeitig prüfen willst (z. B. bei großen Websites)
→ technical seo