Requests库的七个主要方法:
requests.request():构造一个请求,支撑一下各方法的基础方法
requests.get():获取HTML网页的主要方法,对应HTTP的GET
requests.head():获取HTML网页头的信息方法,对应HTTP的HEAD
requests.post():向HTML网页提交POST请求方法,对应HTTP的POST
requests.put():向HTML网页提交PUT请求的方法,对应HTTP的RUT
requests.patch():向HTML网页提交局部修改请求,对应于HTTP的PATCH
requests.delete():向HTML页面提交删除请求,对应HTTP的DELETEHTTP协议:
HTTP,Hypertext Transfer Protocol,超文本传输协议。
HTTP是一个基于“请求与响应”模式的,无状态的应用层协议。
HTTP协议采用URL作为定位网络资源的标识。URL格式:http://host[:port][path]
host:合法的Internet主机域名或IP地址
port:端口号,缺省端口为80
path:请求资源的路径URL是通过HTTP协议存取资源的Internet路径,一个URL对应一个数据资源。
HTTP协议对资源的操作:
GET:请求获取URL位置的资源
HEAD:请求获取URL位置资源的响应消息报告,即获得该资源的头部信息
POST:请求想URL位置的资源后附加新的数据
PUT:请求URL位置存储的一个资源,覆盖原URL位置的资源
PATCH:请求局部更新URL位置的资源,即改变该处资源的部分内容
DELETE:请求删除URL位置存储的资源
“
** kwargs:13个可选字段
params:字典或字节序列,作为参数增加到url种
data:字典,字节序列或文件对象,作为Request的内容
json:JSON格式数据,作为Request的内容
赋值到服务器上的json域
headers:字典,定制http头
定制访问url http的协议头,比如上述用Chrome 10版本,模拟浏览器
files:字典类型,传输文件
向某一个链接提供文件
timeout:设定超时时间,秒为单位
发起get请求,如果时间内未返回,产生timeout的异常
proxies:字典类型,设定访问代理服务器,可以增加登录认证
增加两个代理
http:中我们可以进行用户名和密码的设置
https:普通代理
访问百度使用的是代理的IP地址,有效隐藏真实IP,防止爬虫逆追踪