Warum eine eigene Freigabe?
Klassische Crawler wie Googlebot oder Bingbot sind seit Jahrzehnten Standard. AI-Bots wie GPTBot, ClaudeBot oder PerplexityBot sind neuer — und respektieren nur explizite Freigaben oder ein klares „Allow". Eine alte robots.txt, die nur User-agent: * kennt, kann dazu führen, dass AI-Crawler vorsorglich wegbleiben. Ohne Crawl keine Zitierung in der generativen Antwort.
Die wichtigsten AI-Crawler 2026
| User-Agent | Engine | Zweck |
|---|---|---|
| GPTBot | OpenAI (ChatGPT) | Training & Crawl der Web-Inhalte |
| OAI-SearchBot | OpenAI (ChatGPT Search) | Live-Suche für ChatGPT |
| ChatGPT-User | OpenAI (ChatGPT) | Live-Abrufe bei Nutzeranfragen |
| ClaudeBot | Anthropic | Training & Crawl für Claude |
| Claude-Web | Anthropic | Live-Abrufe für Claude |
| PerplexityBot | Perplexity AI | Index für Perplexity-Antworten |
| Google-Extended | Google Gemini & AI Overviews | Generative AI von Google |
| Applebot-Extended | Apple Intelligence | Training für Apple Intelligence |
| CCBot | Common Crawl | Open-Data-Quelle für viele LLMs |
Copy-Paste-Snippet für deine robots.txt
Speichern unter /public/robots.txt (oder Web-Root). Vergiss nicht, die Sitemap-URL am Ende auf deine Domain anzupassen.
# === AI / LLM crawlers explicitly welcome ===
User-agent: GPTBot
Allow: /
User-agent: OAI-SearchBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: Claude-Web
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Google-Extended
Allow: /
User-agent: Applebot-Extended
Allow: /
User-agent: CCBot
Allow: /
# Fallback for everyone else
User-agent: *
Allow: /
Sitemap: https://deinedomain.de/sitemap.xml
Welche Bots sollte ich blockieren?
Empfehlung: keinen, wenn deine Inhalte öffentlich sichtbar sein sollen. Wer AI-Bots blockt, gewinnt zwar minimal Trainingsschutz, verliert aber massiv an Sichtbarkeit in generativen Antworten — die langfristig den klassischen SEO-Traffic teilweise kannibalisieren werden.
Ausnahmen: interne Bereiche, Login-Seiten, Admin-Routen — diese gehören sowieso unter Disallow:.
Häufige Fehler
- Nur User-agent: * — neue AI-Bots werden vorsorglich blockiert oder ignorieren den Wildcard.
- Google blockieren statt Google-Extended — Google-Extended steuert nur Gemini/AI Overviews, Googlebot bleibt erlaubt.
- Sitemap-URL vergessen — AI-Bots nutzen sie zur Discovery.
- robots.txt nicht erreichbar (404) — ohne sie crawlen seriöse Bots gar nicht.
Nächster Schritt: llms.txt
Sobald die robots.txt steht, ergänzt eine llms.txt deine Inhalte mit einer kuratierten Übersicht für LLMs. Beide Dateien zusammen sind die technische Basis für jede ernsthafte GEO-Strategie.
Check it
Sind deine AI-Crawler-Freigaben korrekt?
Der GEO/check prüft deine robots.txt automatisch — und sagt dir, welche Bots dich erreichen und welche nicht.
Robots.txt prüfen