六、网络爬虫引发的问题

作者: admin

时间: 2023-06-01

网络爬虫引发的问题

网络爬虫的分类
小规模爬虫：数据量小爬取速度不敏感，使用 requests 库，针对网页或者一些列网页，90%以上的爬虫
中规模爬虫：数据规模较大，爬取速度敏感，使用 scrapy 库，针对一个网站或者一系列网站
大规模爬虫：搜索引擎，爬取速度关键，需要定制开发，针对全网

1、网络爬虫的“骚扰”
受限于开发人员的水平和目的，网络爬虫将会为web服务器带来巨大的资源开销

2、网络爬虫的法律风险
服务器上的数据有产权归属
网络爬虫获取数据后牟利将带来法律风险

3、网络爬虫泄露隐私
网络爬虫可能具备突破简单访问控制的能力，获得被保护数据从而泄露个人隐私

网络爬虫的限制
来源审查：判断 User-Agent 进行限制
检查来访 HTTP 协议头的 User-Agent 域，只相应浏览器或者友好爬虫的访问

发布公告：Robots 协议
告诉所有爬虫网站的爬取策略，要求爬虫遵守

标签: none