Technische Basics

AI-Crawler in robots.txt erlauben

Wer GPTBot, ClaudeBot, PerplexityBot, Google-Extended & Co. nicht explizit erlaubt, taucht in generativen Antworten schlicht nicht auf. Hier ist die vollständige Liste plus ein Copy-Paste-Snippet, das du direkt übernehmen kannst.

Warum eine eigene Freigabe?

Klassische Crawler wie Googlebot oder Bingbot sind seit Jahrzehnten Standard. AI-Bots wie GPTBot, ClaudeBot oder PerplexityBot sind neuer — und respektieren nur explizite Freigaben oder ein klares „Allow". Eine alte robots.txt, die nur User-agent: * kennt, kann dazu führen, dass AI-Crawler vorsorglich wegbleiben. Ohne Crawl keine Zitierung in der generativen Antwort.

Die wichtigsten AI-Crawler 2026

User-AgentEngineZweck
GPTBotOpenAI (ChatGPT)Training & Crawl der Web-Inhalte
OAI-SearchBotOpenAI (ChatGPT Search)Live-Suche für ChatGPT
ChatGPT-UserOpenAI (ChatGPT)Live-Abrufe bei Nutzeranfragen
ClaudeBotAnthropicTraining & Crawl für Claude
Claude-WebAnthropicLive-Abrufe für Claude
PerplexityBotPerplexity AIIndex für Perplexity-Antworten
Google-ExtendedGoogle Gemini & AI OverviewsGenerative AI von Google
Applebot-ExtendedApple IntelligenceTraining für Apple Intelligence
CCBotCommon CrawlOpen-Data-Quelle für viele LLMs

Copy-Paste-Snippet für deine robots.txt

Speichern unter /public/robots.txt (oder Web-Root). Vergiss nicht, die Sitemap-URL am Ende auf deine Domain anzupassen.

# === AI / LLM crawlers explicitly welcome ===
User-agent: GPTBot
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: Claude-Web
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: Applebot-Extended
Allow: /

User-agent: CCBot
Allow: /

# Fallback for everyone else
User-agent: *
Allow: /

Sitemap: https://deinedomain.de/sitemap.xml

Welche Bots sollte ich blockieren?

Empfehlung: keinen, wenn deine Inhalte öffentlich sichtbar sein sollen. Wer AI-Bots blockt, gewinnt zwar minimal Trainingsschutz, verliert aber massiv an Sichtbarkeit in generativen Antworten — die langfristig den klassischen SEO-Traffic teilweise kannibalisieren werden.

Ausnahmen: interne Bereiche, Login-Seiten, Admin-Routen — diese gehören sowieso unter Disallow:.

Häufige Fehler

  • Nur User-agent: * — neue AI-Bots werden vorsorglich blockiert oder ignorieren den Wildcard.
  • Google blockieren statt Google-Extended — Google-Extended steuert nur Gemini/AI Overviews, Googlebot bleibt erlaubt.
  • Sitemap-URL vergessen — AI-Bots nutzen sie zur Discovery.
  • robots.txt nicht erreichbar (404) — ohne sie crawlen seriöse Bots gar nicht.

Nächster Schritt: llms.txt

Sobald die robots.txt steht, ergänzt eine llms.txt deine Inhalte mit einer kuratierten Übersicht für LLMs. Beide Dateien zusammen sind die technische Basis für jede ernsthafte GEO-Strategie.

Check it

Sind deine AI-Crawler-Freigaben korrekt?

Der GEO/check prüft deine robots.txt automatisch — und sagt dir, welche Bots dich erreichen und welche nicht.

Robots.txt prüfen