分类 Python 下的文章

windows11安装F5-TTS，系统提示 'choco' 不是被识别的命令，说明 Chocolatey 没有安装

作者: admin
时间: 2025-02-11
分类: Python
评论

Chocolatey是Windows环境下的包管理工具，类似于Ubuntu系统中的apt，Centos系统中的yum

以管理员身份运行 PowerShell
按 Win + S 搜索 PowerShell，右键以管理员身份运行。
运行以下命令安装 Chocolatey
Set-ExecutionPolicy Bypass -Scope Process -Force; [System.Net.ServicePointManager]::SecurityProtocol = [System.Net.ServicePointManager]::SecurityProtocol -bor 3072; iex ((New-Object System.Net.WebClient).DownloadString('https://community.chocolatey.org/install.ps1'))

十、爬虫实例1：京东商品页面爬取

作者: admin
时间: 2023-06-01
分类: requests库
评论

import requests
url = "https://item.jd.com/100038004359.html"
try:
r = requests.get(url) # 提交 get请求
r.raise_for_status() # 如果返回的不是200就触发 requests.HTTPError 异常
r.encoding = r.apparent_encoding # 将猜测的页面编码换成获取到的内容编码
print(r.text[:1000]) # 输出返回的内容是字符串，字符串太长，只输出0至1000下标的内容
except:
print("产生异常")

九、robots 协议小结

作者: admin
时间: 2023-06-01
分类: requests库
评论

robots协议基本语法， * 表示所有 /表示根目录
User-agent: *
Disallow: /

任何网络需要遵守 robots 协议，对于类似人类访问网站，不够成对服务器资源影响的爬虫可以不遵循robots 协议，但是获取的数据不能用于商业

八、robots 协议的遵守方式

作者: admin
时间: 2023-06-01
分类: requests库
评论

robots 协议的使用
网络爬虫：自动或者人工识别 robots.txt ，再进行内容爬取
约束性：robots 协议是建议并非约束性，网络爬虫可以不遵守，但存在法律风险

理论上任何网络爬虫都应该遵守 robots 协议，只有一种情况可以不考虑 robots 协议，但是获取的资源不能用于商业用途
比如说：写一个小程序，每天只对服务器访问几次，每次访问的内容有限，不对服务器构成资源影响，
这种访问和人类的访问非常相似，因为任何网站提供资源都是方便人类访问相关的信息

七、Robots协议

作者: admin
时间: 2023-06-01
分类: requests库
评论

Robots Exclusion Standard 网络爬虫排除标准
作用：网站告知网络爬虫哪些页面可以抓取，哪些不行
网站的根目录会存放一个 Robots.txt 的文件，
里面写了哪些文件可以爬取，哪些文件不可以爬取

案例：京东的 Robots 协议
https://www.jd.con/robots.txt

User-agent: * 无论是哪种网络爬虫，都应该遵守如下协议
Disallow: /? 任何网络爬虫都不允许访问 ? 以问号开头的路径
Disallow: /pop/.html 任何网络爬虫都不允许访问 /pop/.html 文件
Disallow: /pinpai/.html? 任何网络爬虫都不允许访问 /pinpai/.thml? 符合此通配符的任何内容
User-agent: EtaoSpider 禁止 EtaoSpider 爬虫爬取根目录下任何资源
Disallow: /
User-agent: HuihuiSpider 禁止 HuihuiSpider 爬虫爬取根目录下任何资源
Disallow: /
User-agent: GwdangSpider 禁止 GwdangSpider 爬虫爬取根目录下任何资源
Disallow: /
User-agent: WochachaSpider 禁止 WochachaSpider 爬虫爬取根目录下任何资源
Disallow: /

User-agent: 代表哪些爬虫，如果表示所有的爬虫就用 * ，如果表示某一个爬虫就用爬虫的名字
Disallow: 代表不允许访问的资源目录，如果禁止访问所有资源就用 / 表示根目录，如果表示某一种资源就目录使用某种资源目录的标识符

案例：
https://www.baidu.con/robots.txt
https://www.sina.con.cn/robots.txt
https://www.qq.con/robots.txt
https://news.qq.con/robots.txt
https://www.moe.edu.cn/robots.txt 教育部（无robots协议）

robots 协议一定是放在网站的根目录下，
但是 news.sina.com.cn 和 www.sina.com.cn 是两个不同的根目录，
所以这两个站点的 robots 协议可能是不同的

有的网站是没有 robots 协议的，有的网站甚至没有 robots.txt 文件放在根目录
如果一个网站没有提供 robots 协议，那么说明这个网站是允许任何爬虫无限制爬取任何内容