网络爬虫引发的问题

网络爬虫的分类
小规模爬虫:数据量小爬取速度不敏感,使用 requests 库,针对网页或者一些列网页,90%以上的爬虫
中规模爬虫:数据规模较大,爬取速度敏感,使用 scrapy 库,针对一个网站或者一系列网站
大规模爬虫:搜索引擎,爬取速度关键,需要定制开发,针对全网

1、网络爬虫的“骚扰”
受限于开发人员的水平和目的,网络爬虫将会为web服务器带来巨大的资源开销

2、网络爬虫的法律风险
服务器上的数据有产权归属
网络爬虫获取数据后牟利将带来法律风险

3、网络爬虫泄露隐私
网络爬虫可能具备突破简单访问控制的能力,获得被保护数据从而泄露个人隐私

网络爬虫的限制
来源审查:判断 User-Agent 进行限制
检查来访 HTTP 协议头的 User-Agent 域,只相应浏览器或者友好爬虫的访问

发布公告:Robots 协议
告诉所有爬虫网站的爬取策略,要求爬虫遵守

标签: none

添加新评论