Robots.txt 新手配置:哪些能挡,哪些别乱挡
用一张决策图讲清 robots.txt 的基础配置、常见误封、AI 爬虫策略和上线前检查方法。
直接答案:robots.txt 只负责告诉爬虫哪些路径不建议抓取,不能用来保护隐私,也不能保证页面不被索引。新手配置时,核心是不要误挡公开内容、不要把后台和参数页暴露给抓取、并让 sitemap 地址清楚可见。
目标读者与搜索意图:本文适合第一次配置 robots.txt 的站长、建站服务商和独立站运营。搜索意图是“robots.txt 怎么写、哪些路径可以 Disallow、怎么避免误封”。
Robots 配置决策图
flowchart TD
A[这个路径是否公开给用户?] -->|否| B[不要依赖 robots 保护隐私]
A -->|是| C{是否希望被搜索发现}
C -->|是| D[允许抓取并放入内链/sitemap]
C -->|否| E[考虑 noindex 或移出公开入口]
D --> F[声明 Sitemap 地址]
E --> G[确认不会误挡 CSS/JS/图片]
路径判断卡
首页、文章页、工具页、公开栏目页和必要静态资源。
后台路径、内部搜索、无价值参数页、临时测试目录。
会员内容、隐私数据、订单、后台接口;这些应靠权限控制。
按内容授权策略单独判断,避免一刀切影响可见性。
上线前检查清单
- robots.txt 返回 200,内容不是 HTML 错误页。
- 没有误挡 /blog、/tools、CSS、JS 和图片资源。
- Sitemap 地址写在文件末尾。
- Disallow 规则不要过宽,例如误写成 /。
- AI 爬虫策略和内容授权政策一致。
空白配置模板
User-agent: *
Allow: /
Disallow: /admin/
Disallow: /search
Sitemap: https://example.com/sitemap.xml
上面只是模板,不代表适合所有网站。上线前必须用真实路径测试。
本文适合与配套工具
- 本文适合:需要配置抓取边界、避免误封重要页面的新站站长。
- 推荐工具:Robots 规则测试器用于验证路径;Robots.txt 生成器用于生成基础文件;AI 爬虫可访问性用于检查 AI 爬虫策略。
内部链接建议
- 配合 Sitemap 怎么提交 检查抓取入口。
- 技术审计可看 技术 SEO 体检清单。
- AI 策略可看 AI 时代 SEO 怎么做。
FAQ
robots.txt 能防止页面被索引吗?
不能保证。如果外部链接指向该 URL,搜索引擎仍可能知道它。需要禁止索引时应使用 noindex 或权限控制。
Disallow 后用户还能访问页面吗?
能。robots.txt 不是访问控制,只是爬虫抓取建议。
AI 爬虫都应该禁止吗?
不一定。要根据内容授权、品牌曝光和业务目标判断,不要一刀切。
SEO 与 Schema 建议
- Meta title:Robots.txt 新手配置:哪些能挡,哪些别乱挡
- Meta description:学习 robots.txt 基础配置、常见误封、AI 爬虫策略和上线前测试方法,避免阻断重要页面抓取。
- Schema:Article + BreadcrumbList + FAQPage;不要宣称 robots 可保护隐私。