GEO-F-027 基础技术试听纳入认证

robots.txt基础：控制爬虫的第一步

讲清 robots.txt 只控制抓取、不控制索引的本质边界，澄清常见误区，并理解它在 AI 爬虫时代的新意义，避免一刀切屏蔽伤害搜索与 GEO 表现。

所属板块: GEO基础课程
二级模块: 技术基础入门
课程时长: 15 分钟
课程形式: 视频
核心技能: 技术基础
认证徽章: GEO Foundations
浏览量: 583

本节导读

很多团队把 robots.txt 当成「万能开关」：想隐藏页面就写 robots.txt，想不让 AI 看就全站 Disallow。这种理解常常不准确，甚至会伤害正常的搜索与 GEO 表现。

本节先从官方认知出发，把 robots.txt 的作用、边界和误区讲透。Google 对 robots.txt 的定义非常清楚：它是告诉爬虫哪些 URL 可以访问、哪些不应访问的文件，主要用途是管理抓取流量、避免服务器被不必要的抓取压垮。但 Google 同时强调，robots.txt 不是把网页从 Google 中隐藏掉的机制——如果要真正阻止页面出现在搜索结果中，需要使用 noindex 或权限保护（依据：Google Search Central）。

核心讲解

本节围绕 5 个核心概念展开。

一、robots.txt 是「抓取控制」，不是「索引控制」

这是本节最重要的一句话。一个页面如果只是被 robots.txt 禁止抓取，它仍可能因为外部链接等原因被发现，并以「仅 URL 形式」出现在搜索结果中（依据：Google Search Central）。换句话说，禁止抓取 ≠ 不被索引。

二、robots.txt 能控制什么

是否允许某类 user-agent 抓取某些路径
是否限制特定资源目录
是否做基础的爬取隔离
是否为不同 bot 设置不同规则

三、robots.txt 不能保证什么

不能保证所有爬虫都遵守
不能保证页面绝对不被索引
不能保护敏感信息安全
不能替代登录权限、noindex、鉴权、响应头控制

Google 官方明确指出，不同爬虫对语法的支持不完全相同，而且 robots.txt 依赖爬虫自觉遵守（依据：Google Search Central）。

一个最小化的 robots.txt 示例如下：

User-agent: *
Disallow: /admin/
Allow: /

Sitemap: https://example.com/sitemap.xml

四、GEO 场景下 robots.txt 的新意义

以前主要关注 Googlebot、Bingbot；现在还要把更多类型的访问者纳入考虑：

AI 搜索爬虫
AI 训练爬虫
用户触发访问器
特殊用途爬虫

这意味着 robots.txt 的规则设计不再只是「收录与否」的问题，而要按用途分层考虑。

五、常见误区

全站屏蔽 CSS / JS / 资源文件，导致页面难以被理解
想隐藏内容却只写 robots.txt
一刀切屏蔽 AI bot，结果影响 AI 搜索可见性
更新 robots.txt 后没有做验证和观察

把 robots.txt 放回控制机制全景里

团队最常混淆的不是「有没有工具」，而是「每个工具是干嘛的」。robots.txt 只是技术控制机制中的一种，它解决的是「能不能抓」，而 noindex 解决「能不能进索引」，预览控制（如 nosnippet、max-snippet）解决「能展示多少」，llms.txt 则解决「模型如何更快理解站点」。理解这张关系图谱，团队才能不再把所有问题都丢给 robots.txt。

课堂练习

观察 5 个 robots.txt 示例：企业官网版、文档站版、SaaS 产品站版、博客版、错误示例版。然后判断：哪些目录应该开放、哪些目录该谨慎处理、哪些规则可能误伤 SEO / GEO。

学习产出

《robots.txt 基础认知图》
《robots.txt 常见误区清单》
《基础 robots 策略模板》

← 返回课程目录