python爬虫请求头的使用

站长资源 2024/11/23 佚名

2 0 1

爬虫请求头

网页获取：

通过urlopen来进行获取

requset.urlopen(url,data,timeout)

第一个参数url即为URL，第二个参数data是访问URL时要传送的数据，第三个timeout是设置超时时间。
第二三个参数是可以不传送的，data默认为空None，timeout默认为 socket._GLOBAL_DEFAULT_TIMEOUT
第一个参数URL是必须要加入的，执行urlopen方法之后，返回一个response对象，返回信息便保存在这里面

from urllib.request import urlopen

url = "https://www.baidu.com/"
respons = urlopen(url)#最简单的爬取情况这样爬取大部分网页无法爬取成功

response对象：

response.read()
read()方法就是读取文件里的全部内容，返回bytes类型

print(type(respons.read()))#结果为bytes类型所以需要进行转码
print(type(respons.read().decode()))#通过decode转码结果为str

response.getcode()
返回 HTTP的响应码，成功返回200，4服务器页面出错，5服务器问题

response.geturl()
返回返回实际数据的实际URL，防止重定向问题

response.info()
返回服务器响应的HTTP报头

Request对象

Request对象，由于urlopen参数可以传入一个request请求（可以理解成为再加一步封装的功能）因为在构建请求时还需要加入好多内容，通过构建一个request，服务器响应请求得到应答，这样显得逻辑上清晰明确

from urllib.request import urlopen,Request
from fake_useragent import UserAgent#这个包可以随机生成User-Agent

url = "https://www.baidu.com/"
headers = {"User-Agent":UserAgent().firefox}#生成火狐的
request = Request(url,headers=headers)
response = urlopen(request)

a=response.read().decode()

Get请求

浏览器通过GET方法发出请求
爬虫主要通过get再url中加入请求的参数，由于中文的需要转码通过
Urllib.parse.urlencode() 针对多个参数进行转码操作输入格式为字典类型
Urllib.parse.quote() 针对单个字符串进行转码操作
Str格式.format( ) 用于拼接字符串

post请求

一般在需要登录的地方用的比较多
需要在request请求中加如一个data用来传入参数
参数的形式要以字典格式通过urllib.parse.urlencode()进行转换成字符串形式
再通过encode()函数对字符串进行转码（默认值就可以）

发送请求/响应header头的含义

名称含义 Accept 告诉服务器，客户端支持的数据类型 Accept-Charset 告诉服务器，客户端采用的编码 Accept-Encoding 告诉服务器，客户机支持的数据压缩格式 Accept-Language 告诉服务器，客户机的语言环境 Host 客户机通过这个头告诉服务器，想访问的主机名 If-Modified-Since 客户机通过这个头告诉服务器，资源的缓存时间 Referer 客户机通过这个头告诉服务器，它是从哪个资源来访问服务器的。（一般用于防盗链） User-Agent 客户机通过这个头告诉服务器，客户机的软件环境 Cookie 客户机通过这个头告诉服务器，可以向服务器带数据 Refresh 服务器通过这个头，告诉浏览器隔多长时间刷新一次 Content-Type 服务器通过这个头，回送数据的类型 Content-Language 服务器通过这个头，告诉服务器的语言环境 Server 服务器通过这个头，告诉浏览器服务器的类型 Content-Encoding 服务器通过这个头，告诉浏览器数据采用的压缩格式 Content-Length 服务器通过这个头，告诉浏览器回送数据的长度

Ajax请求
用于提取动态的页面网页数据根据拖动进行显示
通过浏览器工具箱，查找包的信息，找到url的规律进行爬取
如果无法知道要循环多少次则规定一个死循环，爬取页面为空时停止循环
也可以通过改变url一次性输出更多的网页信息（只要服务器允许）

https请求
因为在有些浏览器中存在很多证书所以在大部分网页爬取的时候不用改变证书或者添加证书但有些自己写证书的网站需要进行这一步操作
https请求=在http上加ssl，http请求是明文直接可以看见，为了安全要加上ssl
可以选择忽略证书进行爬取 context = ssl._create_unverified_context()

python爬虫请求头,python,请求头

广告合作：本站广告合作请联系QQ：858582 申请时备注：广告合作（否则不回）
免责声明：本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除！

评论“python爬虫请求头的使用”

暂无评论...

www.wwsws.com 伏龙阁资源网

39,976影音资源

44,792技术资源

21,817软件资源

651,128站长资源

最新文章

转载一个别人收藏的精典网站Ruby,HIBERNATE

2024/11/23

可与Spreadsheets媲美的在线表格系统:EditG

2024/11/23

cygwin使用心得

2024/11/23

脚本的DVD开发

2024/11/23

局域网设置自动配置脚本文件的写法与用途

2024/11/23

一句话新闻

苹果官宣WWDC 2024！预计会有大批AI功能 - 2024/11/23

3月27日消息，苹果宣布2024年全球开发者大会（WWDC）将于6月10日至6月14日举行，巧合的是，这次大会与端午假期重合。

苹果官方表示：

在线参加 Apple 每年规模最大的开发者盛会。亲眼见证 Apple 最新平台、技术和工具的发布。了解如何创建和改进你的 App 和游戏。与 Apple 设计师和工程师互动交流，与全球开发者社区建立联系。以上活动均免费在线举行。

探索各种新的工具、框架和功能，助力你打造出理想的 App 和游戏。通过视频讲座学习新技能，与 Apple 专家进行一对一会面，以推进你的项目，完善你的构思。

Swift Student Challenge 旨在支持和鼓舞下一代开发者、创作者和企业家。太平洋时间 3 月 28 日，我们将公布今年的获奖者名单。获奖者将有资格参加在 Apple Park 举办的特别活动。我们还会选出 50 名杰出获胜者，他们将受邀前往库比提诺，获得为期三天的非凡体验，包括参加 Apple Park 的特别活动。

python爬虫请求头的使用

python3处理word文档实例分析

python3中布局背景颜色代码分析

评论“python爬虫请求头的使用”

RTX 5090要首发性能要翻倍！三星展示GDDR7显存

更新日志

友情链接

python爬虫请求头的使用

python3处理word文档实例分析

python3中布局背景颜色代码分析

评论“python爬虫请求头的使用”

RTX 5090要首发 性能要翻倍！三星展示GDDR7显存

更新日志

友情链接

RTX 5090要首发性能要翻倍！三星展示GDDR7显存