Robots Exclusion Standard 网络爬虫排除标准
作用:网站告知网络爬虫哪些页面可以抓取,哪些不行
网站的根目录会存放一个 Robots.txt 的文件,
里面写了哪些文件可以爬取,哪些文件不可以爬取
案例:京东的 Robots 协议
https://www.jd.con/robots.txt
User-agent: * 无论是哪种网络爬虫,都应该遵守如下协议
Disallow: /? 任何网络爬虫都不允许访问 ? 以问号开头的路径
Disallow: /pop/.html 任何网络爬虫都不允许访问 /pop/.html 文件
Disallow: /pinpai/.html? 任何网络爬虫都不允许访问 /pinpai/.thml? 符合此通配符的任何内容
User-agent: EtaoSpider 禁止 EtaoSpider 爬虫爬取根目录下任何资源
Disallow: /
User-agent: HuihuiSpider 禁止 HuihuiSpider 爬虫爬取根目录下任何资源
Disallow: /
User-agent: GwdangSpider 禁止 GwdangSpider 爬虫爬取根目录下任何资源
Disallow: /
User-agent: WochachaSpider 禁止 WochachaSpider 爬虫爬取根目录下任何资源
Disallow: /
User-agent: 代表哪些爬虫,如果表示所有的爬虫就用 * ,如果表示某一个爬虫就用爬虫的名字
Disallow: 代表不允许访问的资源目录,如果禁止访问所有资源就用 / 表示根目录 ,如果表示某一种资源就目录使用某种资源目录的标识符
案例:
https://www.baidu.con/robots.txt
https://www.sina.con.cn/robots.txt
https://www.qq.con/robots.txt
https://news.qq.con/robots.txt
https://www.moe.edu.cn/robots.txt 教育部(无robots协议)
robots 协议一定是放在网站的根目录下,
但是 news.sina.com.cn 和 www.sina.com.cn 是两个不同的根目录,
所以这两个站点的 robots 协议可能是不同的
有的网站是没有 robots 协议的,有的网站甚至没有 robots.txt 文件放在根目录
如果一个网站没有提供 robots 协议,那么说明这个网站是允许任何爬虫无限制爬取任何内容