2026-05-06基础上手

Robots.txt 新手配置：哪些能挡，哪些别乱挡

用一张决策图讲清 robots.txt 的基础配置、常见误封、AI 爬虫策略和上线前检查方法。

直接答案：robots.txt 只负责告诉爬虫哪些路径不建议抓取，不能用来保护隐私，也不能保证页面不被索引。新手配置时，核心是不要误挡公开内容、不要把后台和参数页暴露给抓取、并让 sitemap 地址清楚可见。

目标读者与搜索意图：本文适合第一次配置 robots.txt 的站长、建站服务商和独立站运营。搜索意图是“robots.txt 怎么写、哪些路径可以 Disallow、怎么避免误封”。

Robots 配置决策图

flowchart TD
A[这个路径是否公开给用户?] -->|否| B[不要依赖 robots 保护隐私]
A -->|是| C{是否希望被搜索发现}
C -->|是| D[允许抓取并放入内链/sitemap]
C -->|否| E[考虑 noindex 或移出公开入口]
D --> F[声明 Sitemap 地址]
E --> G[确认不会误挡 CSS/JS/图片]

路径判断卡

通常允许

首页、文章页、工具页、公开栏目页和必要静态资源。

通常阻止

后台路径、内部搜索、无价值参数页、临时测试目录。

不要依赖

会员内容、隐私数据、订单、后台接口；这些应靠权限控制。

AI 爬虫

按内容授权策略单独判断，避免一刀切影响可见性。

上线前检查清单

robots.txt 返回 200，内容不是 HTML 错误页。
没有误挡 /blog、/tools、CSS、JS 和图片资源。
Sitemap 地址写在文件末尾。
Disallow 规则不要过宽，例如误写成 /。
AI 爬虫策略和内容授权政策一致。

空白配置模板

User-agent: *
Allow: /
Disallow: /admin/
Disallow: /search
Sitemap: https://example.com/sitemap.xml

上面只是模板，不代表适合所有网站。上线前必须用真实路径测试。

本文适合与配套工具

本文适合：需要配置抓取边界、避免误封重要页面的新站站长。
推荐工具：Robots 规则测试器用于验证路径；Robots.txt 生成器用于生成基础文件；AI 爬虫可访问性用于检查 AI 爬虫策略。

内部链接建议

配合 Sitemap 怎么提交检查抓取入口。
技术审计可看技术 SEO 体检清单。
AI 策略可看 AI 时代 SEO 怎么做。

FAQ

robots.txt 能防止页面被索引吗？

不能保证。如果外部链接指向该 URL，搜索引擎仍可能知道它。需要禁止索引时应使用 noindex 或权限控制。

Disallow 后用户还能访问页面吗？

能。robots.txt 不是访问控制，只是爬虫抓取建议。

AI 爬虫都应该禁止吗？

不一定。要根据内容授权、品牌曝光和业务目标判断，不要一刀切。

SEO 与 Schema 建议

Meta title：Robots.txt 新手配置：哪些能挡，哪些别乱挡
Meta description：学习 robots.txt 基础配置、常见误封、AI 爬虫策略和上线前测试方法，避免阻断重要页面抓取。
Schema：Article + BreadcrumbList + FAQPage；不要宣称 robots 可保护隐私。