为什么 robots.txt 对 GEO 很重要?
robots.txt 文件告诉搜索引擎和 AI 爬虫哪些页面可以访问。如果你阻止了 AI 爬虫,你的内容就无法被 AI 搜索引擎索引和引用。
主要的 AI 爬虫
| 爬虫名称 | 所属公司 | 用途 |
|---|---|---|
| OAI-SearchBot | OpenAI | ChatGPT Search |
| GPTBot | OpenAI | 模型训练 |
| PerplexityBot | Perplexity | Perplexity 搜索 |
| Google-Extended | Gemini 训练 | |
| ClaudeBot | Anthropic | Claude 训练 |
| CCBot | Common Crawl | 公共数据集 |
推荐配置
允许所有 AI 爬虫(推荐)
User-agent: *
Allow: /
User-agent: GPTBot
Allow: /
User-agent: OAI-SearchBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Google-Extended
Allow: /
User-agent: ClaudeBot
Allow: /
Sitemap: https://yourdomain.com/sitemap.xml仅允许搜索类爬虫,禁止训练类
User-agent: OAI-SearchBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: GPTBot
Disallow: /
User-agent: Google-Extended
Disallow: /
User-agent: ClaudeBot
Disallow: /检查你的配置
使用 GeoAction 的 GEO 诊断工具,我们会自动检测你的 robots.txt 配置:
常见问题
Q: 允许 AI 爬虫会影响 SEO 吗?
A: 不会。AI 爬虫和传统搜索引擎爬虫是独立的,允许 AI 爬虫不会影响 Google 排名。
Q: 我应该允许训练类爬虫吗?
A: 这取决于你的策略。允许训练可以帮助 AI 更好地理解你的品牌,但如果担心内容被用于训练,可以只允许搜索类爬虫。
Q: 修改后多久生效?
A: 爬虫会定期重新读取 robots.txt,通常在几小时到几天内生效。
总结
正确配置 robots.txt 是 GEO 优化的第一步。确保 AI 爬虫能够访问你的网站,你的内容才有机会被引用和推荐。