八、robots 协议的遵守方式
robots 协议的使用
网络爬虫:自动或者人工识别 robots.txt ,再进行内容爬取
约束性:robots 协议是建议并非约束性,网络爬虫可以不遵守,但存在法律风险
理论上任何网络爬虫都应该遵守 robots 协议,只有一种情况可以不考虑 robots 协议,但是获取的资源不能用于商业用途
比如说:写一个小程序,每天只对服务器访问几次,每次访问的内容有限,不对服务器构成资源影响,
这种访问和人类的访问非常相似,因为任何网站提供资源都是方便人类访问相关的信息