AI-Crawler in robots.txt erlauben – GPTBot, ClaudeBot, PerplexityBot & Co.

Warum eine eigene Freigabe?

Klassische Crawler wie Googlebot oder Bingbot sind seit Jahrzehnten Standard. AI-Bots wie GPTBot, ClaudeBot oder PerplexityBot sind neuer — und respektieren nur explizite Freigaben oder ein klares „Allow". Eine alte robots.txt, die nur User-agent: * kennt, kann dazu führen, dass AI-Crawler vorsorglich wegbleiben. Ohne Crawl keine Zitierung in der generativen Antwort.

Die wichtigsten AI-Crawler 2026

User-Agent	Engine	Zweck
GPTBot	OpenAI (ChatGPT)	Training & Crawl der Web-Inhalte
OAI-SearchBot	OpenAI (ChatGPT Search)	Live-Suche für ChatGPT
ChatGPT-User	OpenAI (ChatGPT)	Live-Abrufe bei Nutzeranfragen
ClaudeBot	Anthropic	Training & Crawl für Claude
Claude-Web	Anthropic	Live-Abrufe für Claude
PerplexityBot	Perplexity AI	Index für Perplexity-Antworten
Google-Extended	Google Gemini & AI Overviews	Generative AI von Google
Applebot-Extended	Apple Intelligence	Training für Apple Intelligence
CCBot	Common Crawl	Open-Data-Quelle für viele LLMs

Copy-Paste-Snippet für deine robots.txt

Speichern unter /public/robots.txt (oder Web-Root). Vergiss nicht, die Sitemap-URL am Ende auf deine Domain anzupassen.

# === AI / LLM crawlers explicitly welcome ===
User-agent: GPTBot
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: Claude-Web
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: Applebot-Extended
Allow: /

User-agent: CCBot
Allow: /

# Fallback for everyone else
User-agent: *
Allow: /

Sitemap: https://deinedomain.de/sitemap.xml

Welche Bots sollte ich blockieren?

Empfehlung: keinen, wenn deine Inhalte öffentlich sichtbar sein sollen. Wer AI-Bots blockt, gewinnt zwar minimal Trainingsschutz, verliert aber massiv an Sichtbarkeit in generativen Antworten — die langfristig den klassischen SEO-Traffic teilweise kannibalisieren werden.

Ausnahmen: interne Bereiche, Login-Seiten, Admin-Routen — diese gehören sowieso unter Disallow:.

Häufige Fehler

Nur User-agent: * — neue AI-Bots werden vorsorglich blockiert oder ignorieren den Wildcard.
Google blockieren statt Google-Extended — Google-Extended steuert nur Gemini/AI Overviews, Googlebot bleibt erlaubt.
Sitemap-URL vergessen — AI-Bots nutzen sie zur Discovery.
robots.txt nicht erreichbar (404) — ohne sie crawlen seriöse Bots gar nicht.

Nächster Schritt: llms.txt

Sobald die robots.txt steht, ergänzt eine llms.txt deine Inhalte mit einer kuratierten Übersicht für LLMs. Beide Dateien zusammen sind die technische Basis für jede ernsthafte GEO-Strategie.

Check it

Sind deine AI-Crawler-Freigaben korrekt?

Der GEO/check prüft deine robots.txt automatisch — und sagt dir, welche Bots dich erreichen und welche nicht.

Robots.txt prüfen