robots.txt基础:控制爬虫的第一步
讲清 robots.txt 只控制抓取、不控制索引的本质边界,澄清常见误区,并理解它在 AI 爬虫时代的新意义,避免一刀切屏蔽伤害搜索与 GEO 表现。
- 所属板块
- GEO基础课程
- 二级模块
- 技术基础入门
- 课程时长
- 15 分钟
- 课程形式
- 视频
- 核心技能
- 技术基础
- 认证徽章
- GEO Foundations
- 浏览量
- 583
本节导读
很多团队把 robots.txt 当成「万能开关」:想隐藏页面就写 robots.txt,想不让 AI 看就全站 Disallow。这种理解常常不准确,甚至会伤害正常的搜索与 GEO 表现。
本节先从官方认知出发,把 robots.txt 的作用、边界和误区讲透。Google 对 robots.txt 的定义非常清楚:它是告诉爬虫哪些 URL 可以访问、哪些不应访问的文件,主要用途是管理抓取流量、避免服务器被不必要的抓取压垮。但 Google 同时强调,robots.txt 不是把网页从 Google 中隐藏掉的机制——如果要真正阻止页面出现在搜索结果中,需要使用 noindex 或权限保护(依据:Google Search Central)。
核心讲解
本节围绕 5 个核心概念展开。
一、robots.txt 是「抓取控制」,不是「索引控制」
这是本节最重要的一句话。一个页面如果只是被 robots.txt 禁止抓取,它仍可能因为外部链接等原因被发现,并以「仅 URL 形式」出现在搜索结果中(依据:Google Search Central)。换句话说,禁止抓取 ≠ 不被索引。
二、robots.txt 能控制什么
- 是否允许某类 user-agent 抓取某些路径
- 是否限制特定资源目录
- 是否做基础的爬取隔离
- 是否为不同 bot 设置不同规则
三、robots.txt 不能保证什么
- 不能保证所有爬虫都遵守
- 不能保证页面绝对不被索引
- 不能保护敏感信息安全
- 不能替代登录权限、noindex、鉴权、响应头控制
Google 官方明确指出,不同爬虫对语法的支持不完全相同,而且 robots.txt 依赖爬虫自觉遵守(依据:Google Search Central)。
一个最小化的 robots.txt 示例如下:
User-agent: *
Disallow: /admin/
Allow: /
Sitemap: https://example.com/sitemap.xml
四、GEO 场景下 robots.txt 的新意义
以前主要关注 Googlebot、Bingbot;现在还要把更多类型的访问者纳入考虑:
- AI 搜索爬虫
- AI 训练爬虫
- 用户触发访问器
- 特殊用途爬虫
这意味着 robots.txt 的规则设计不再只是「收录与否」的问题,而要按用途分层考虑。
五、常见误区
- 全站屏蔽 CSS / JS / 资源文件,导致页面难以被理解
- 想隐藏内容却只写 robots.txt
- 一刀切屏蔽 AI bot,结果影响 AI 搜索可见性
- 更新 robots.txt 后没有做验证和观察
把 robots.txt 放回控制机制全景里
团队最常混淆的不是「有没有工具」,而是「每个工具是干嘛的」。robots.txt 只是技术控制机制中的一种,它解决的是「能不能抓」,而 noindex 解决「能不能进索引」,预览控制(如 nosnippet、max-snippet)解决「能展示多少」,llms.txt 则解决「模型如何更快理解站点」。理解这张关系图谱,团队才能不再把所有问题都丢给 robots.txt。
课堂练习
观察 5 个 robots.txt 示例:企业官网版、文档站版、SaaS 产品站版、博客版、错误示例版。然后判断:哪些目录应该开放、哪些目录该谨慎处理、哪些规则可能误伤 SEO / GEO。
学习产出
- 《robots.txt 基础认知图》
- 《robots.txt 常见误区清单》
- 《基础 robots 策略模板》