返回博客列表
基础上手

Robots.txt 新手配置:哪些能挡,哪些别乱挡

用一张决策图讲清 robots.txt 的基础配置、常见误封、AI 爬虫策略和上线前检查方法。

直接答案:robots.txt 只负责告诉爬虫哪些路径不建议抓取,不能用来保护隐私,也不能保证页面不被索引。新手配置时,核心是不要误挡公开内容、不要把后台和参数页暴露给抓取、并让 sitemap 地址清楚可见。

目标读者与搜索意图:本文适合第一次配置 robots.txt 的站长、建站服务商和独立站运营。搜索意图是“robots.txt 怎么写、哪些路径可以 Disallow、怎么避免误封”。

Robots 配置决策图

flowchart TD
A[这个路径是否公开给用户?] -->|否| B[不要依赖 robots 保护隐私]
A -->|是| C{是否希望被搜索发现}
C -->|是| D[允许抓取并放入内链/sitemap]
C -->|否| E[考虑 noindex 或移出公开入口]
D --> F[声明 Sitemap 地址]
E --> G[确认不会误挡 CSS/JS/图片]

路径判断卡

通常允许

首页、文章页、工具页、公开栏目页和必要静态资源。

通常阻止

后台路径、内部搜索、无价值参数页、临时测试目录。

不要依赖

会员内容、隐私数据、订单、后台接口;这些应靠权限控制。

AI 爬虫

按内容授权策略单独判断,避免一刀切影响可见性。

上线前检查清单

  • robots.txt 返回 200,内容不是 HTML 错误页。
  • 没有误挡 /blog、/tools、CSS、JS 和图片资源。
  • Sitemap 地址写在文件末尾。
  • Disallow 规则不要过宽,例如误写成 /。
  • AI 爬虫策略和内容授权政策一致。

空白配置模板

User-agent: *
Allow: /
Disallow: /admin/
Disallow: /search
Sitemap: https://example.com/sitemap.xml

上面只是模板,不代表适合所有网站。上线前必须用真实路径测试。

本文适合与配套工具

内部链接建议

FAQ

robots.txt 能防止页面被索引吗?

不能保证。如果外部链接指向该 URL,搜索引擎仍可能知道它。需要禁止索引时应使用 noindex 或权限控制。

Disallow 后用户还能访问页面吗?

能。robots.txt 不是访问控制,只是爬虫抓取建议。

AI 爬虫都应该禁止吗?

不一定。要根据内容授权、品牌曝光和业务目标判断,不要一刀切。

SEO 与 Schema 建议

  • Meta title:Robots.txt 新手配置:哪些能挡,哪些别乱挡
  • Meta description:学习 robots.txt 基础配置、常见误封、AI 爬虫策略和上线前测试方法,避免阻断重要页面抓取。
  • Schema:Article + BreadcrumbList + FAQPage;不要宣称 robots 可保护隐私。