Chocolatey是Windows环境下的包管理工具,类似于Ubuntu系统中的apt,Centos系统中的yum

  1. 以管理员身份运行 PowerShell
    按 Win + S 搜索 PowerShell,右键 以管理员身份运行。
  2. 运行以下命令安装 Chocolatey
    Set-ExecutionPolicy Bypass -Scope Process -Force; [System.Net.ServicePointManager]::SecurityProtocol = [System.Net.ServicePointManager]::SecurityProtocol -bor 3072; iex ((New-Object System.Net.WebClient).DownloadString('https://community.chocolatey.org/install.ps1'))

ollama安装
ollama下载
https://ollama.com/download/windows
查看 ollama 版本
命令行输入下面的命令
ollama --version
当看到下面这一行提示说明ollama已经安装好了
ollama version is 0.5.7Copy

下载deepseek模型
模型下载地址
https://ollama.com/library/deepseek-r1
如果你的显卡显存8G可以选择7b模型,如果小于8G选择1.5b模型
我选择的是1.5b
在命令行输入命令
ollama run deepseek-r1:1.5b

其他对应的命令:
7b
ollama run deepseek-r1:7b
显存16G可以选7b、8b、14b,显存24G可以选32b,显存40G可以选70b或者更高

C:\Users\Administrator> ollama pull deepseek-r1:1.5b
pulling manifest
pulling 6340dc3229b0... 26% ▕█████████████████████████████ ▏ 1.3 GB/4.9 GB 3.5 MB/s 17m32sCopy

等待进度条完成后就可以用了
需要注意的是需要梯子

安装Web UI
点击下载安装Web UI
添加浏览器扩展

import requests
url = "https://item.jd.com/100038004359.html"
try:
r = requests.get(url) # 提交 get请求
r.raise_for_status() # 如果返回的不是200就触发 requests.HTTPError 异常
r.encoding = r.apparent_encoding # 将猜测的页面编码换成获取到的内容编码
print(r.text[:1000]) # 输出返回的内容是字符串,字符串太长,只输出0至1000下标的内容
except:
print("产生异常")

robots协议基本语法, * 表示所有 /表示根目录
User-agent: *
Disallow: /

任何网络需要遵守 robots 协议,对于类似人类访问网站,不够成对服务器资源影响的爬虫可以不遵循robots 协议,但是获取的数据不能用于商业

robots 协议的使用
网络爬虫:自动或者人工识别 robots.txt ,再进行内容爬取
约束性:robots 协议是建议并非约束性,网络爬虫可以不遵守,但存在法律风险

理论上任何网络爬虫都应该遵守 robots 协议,只有一种情况可以不考虑 robots 协议,但是获取的资源不能用于商业用途
比如说:写一个小程序,每天只对服务器访问几次,每次访问的内容有限,不对服务器构成资源影响,
这种访问和人类的访问非常相似,因为任何网站提供资源都是方便人类访问相关的信息