GEO-F-027 基础 技术 试听 纳入认证

robots.txt基础:控制爬虫的第一步

讲清 robots.txt 只控制抓取、不控制索引的本质边界,澄清常见误区,并理解它在 AI 爬虫时代的新意义,避免一刀切屏蔽伤害搜索与 GEO 表现。

所属板块
GEO基础课程
二级模块
技术基础入门
课程时长
15 分钟
课程形式
视频
核心技能
技术基础
认证徽章
GEO Foundations
浏览量
583

本节导读

很多团队把 robots.txt 当成「万能开关」:想隐藏页面就写 robots.txt,想不让 AI 看就全站 Disallow。这种理解常常不准确,甚至会伤害正常的搜索与 GEO 表现。

本节先从官方认知出发,把 robots.txt 的作用、边界和误区讲透。Google 对 robots.txt 的定义非常清楚:它是告诉爬虫哪些 URL 可以访问、哪些不应访问的文件,主要用途是管理抓取流量、避免服务器被不必要的抓取压垮。但 Google 同时强调,robots.txt 不是把网页从 Google 中隐藏掉的机制——如果要真正阻止页面出现在搜索结果中,需要使用 noindex 或权限保护(依据:Google Search Central)。

核心讲解

本节围绕 5 个核心概念展开。

一、robots.txt 是「抓取控制」,不是「索引控制」

这是本节最重要的一句话。一个页面如果只是被 robots.txt 禁止抓取,它仍可能因为外部链接等原因被发现,并以「仅 URL 形式」出现在搜索结果中(依据:Google Search Central)。换句话说,禁止抓取 ≠ 不被索引。

二、robots.txt 能控制什么

  • 是否允许某类 user-agent 抓取某些路径
  • 是否限制特定资源目录
  • 是否做基础的爬取隔离
  • 是否为不同 bot 设置不同规则

三、robots.txt 不能保证什么

  • 不能保证所有爬虫都遵守
  • 不能保证页面绝对不被索引
  • 不能保护敏感信息安全
  • 不能替代登录权限、noindex、鉴权、响应头控制

Google 官方明确指出,不同爬虫对语法的支持不完全相同,而且 robots.txt 依赖爬虫自觉遵守(依据:Google Search Central)。

一个最小化的 robots.txt 示例如下:

User-agent: *
Disallow: /admin/
Allow: /

Sitemap: https://example.com/sitemap.xml

四、GEO 场景下 robots.txt 的新意义

以前主要关注 Googlebot、Bingbot;现在还要把更多类型的访问者纳入考虑:

  • AI 搜索爬虫
  • AI 训练爬虫
  • 用户触发访问器
  • 特殊用途爬虫

这意味着 robots.txt 的规则设计不再只是「收录与否」的问题,而要按用途分层考虑。

五、常见误区

  • 全站屏蔽 CSS / JS / 资源文件,导致页面难以被理解
  • 想隐藏内容却只写 robots.txt
  • 一刀切屏蔽 AI bot,结果影响 AI 搜索可见性
  • 更新 robots.txt 后没有做验证和观察

把 robots.txt 放回控制机制全景里

团队最常混淆的不是「有没有工具」,而是「每个工具是干嘛的」。robots.txt 只是技术控制机制中的一种,它解决的是「能不能抓」,而 noindex 解决「能不能进索引」,预览控制(如 nosnippet、max-snippet)解决「能展示多少」,llms.txt 则解决「模型如何更快理解站点」。理解这张关系图谱,团队才能不再把所有问题都丢给 robots.txt。

课堂练习

观察 5 个 robots.txt 示例:企业官网版、文档站版、SaaS 产品站版、博客版、错误示例版。然后判断:哪些目录应该开放、哪些目录该谨慎处理、哪些规则可能误伤 SEO / GEO。

学习产出

  • 《robots.txt 基础认知图》
  • 《robots.txt 常见误区清单》
  • 《基础 robots 策略模板》
← 返回课程目录