标签: 爬虫处理payload请求

爬虫处理payload请求

爬虫处理payload请求

在爬取网站的时候经常遇到post请求,对于一般的form_data参数的就很好处理,是不是遇到过下面的这种payload形式呢?

%title插图%num

像这种payload类型的网站,需要由特定的处理方式处理。

处理方法:

import requests
import json
headers = {
“Content-Type”:”application/json;charset=UTF-8″,
“User-Agent”:”Mozilla/5.0 (Macintosh; Intel Mac OS X 11_2_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.114 Safari/537.36″,
}
payload_data = {“token”: “”, “pn”: 20, “rn”: 20, “sdt”: “”, “edt”: “”, “inc_wd”: “”, “exc_wd”: “”, “fields”: “title”,
“cnum”: “001”, “sort”: “{\”infodatepx\”:\”0\”}”, “ssort”: “title”, “cl”: 200, “terminal”: “”,
“condition”: [{“fieldName”: “categorynum”, “likeType”: 2, “equal”: “003004002”}], “time”: [
{“fieldName”: “infodatepx”, “startTime”: “2021-01-07 00:00:00”,
“endTime”: “2021-04-07 23:59:59”}], “highlights”: “title”, “accuracy”: “”, “noParticiple”: “1”,
“isBusiness”: “1”}
url = “http://jsggzy.jszwfw.gov.cn/inteligentsearch/rest/inteligentSearch/getFullTextData”
resp = requests.post(url,headers=headers,data=json.dumps(payload_data))

与form_data的不同点是用json.dumps封装了一下

需要注意的点:如果是json格式,要在headers里加上”Content-Type”:”application/json;charset=UTF-8″

还有一种处理方法。将payload_data改写成”token=”\npn=20\nrn=20\nsd=”  这种形式,即参数之间加上\n,不需要json.dumps也能解决问题。

爬虫处理payload请求

爬虫处理payload请求

在爬取网站的时候经常遇到post请求,对于一般的form_data参数的就很好处理,是不是遇到过下面的这种payload形式呢?

%title插图%num

像这种payload类型的网站,需要由特定的处理方式处理。

处理方法:

import requests
import json
headers = {
“Content-Type”:”application/json;charset=UTF-8″,
“User-Agent”:”Mozilla/5.0 (Macintosh; Intel Mac OS X 11_2_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.114 Safari/537.36″,
}
payload_data = {“token”: “”, “pn”: 20, “rn”: 20, “sdt”: “”, “edt”: “”, “inc_wd”: “”, “exc_wd”: “”, “fields”: “title”,
“cnum”: “001”, “sort”: “{\”infodatepx\”:\”0\”}”, “ssort”: “title”, “cl”: 200, “terminal”: “”,
“condition”: [{“fieldName”: “categorynum”, “likeType”: 2, “equal”: “003004002”}], “time”: [
{“fieldName”: “infodatepx”, “startTime”: “2021-01-07 00:00:00”,
“endTime”: “2021-04-07 23:59:59”}], “highlights”: “title”, “accuracy”: “”, “noParticiple”: “1”,
“isBusiness”: “1”}
url = “http://jsggzy.jszwfw.gov.cn/inteligentsearch/rest/inteligentSearch/getFullTextData”
resp = requests.post(url,headers=headers,data=json.dumps(payload_data))

与form_data的不同点是用json.dumps封装了一下

需要注意的点:如果是json格式,要在headers里加上”Content-Type”:”application/json;charset=UTF-8″

还有一种处理方法。将payload_data改写成”token=”\npn=20\nrn=20\nsd=”  这种形式,即参数之间加上\n,不需要json.dumps也能解决问题。

友情链接: SITEMAP | 旋风加速器官网 | 旋风软件中心 | textarea | 黑洞加速器 | jiaohess | 老王加速器 | 烧饼哥加速器 | 小蓝鸟 | tiktok加速器 | 旋风加速度器 | 旋风加速 | quickq加速器 | 飞驰加速器 | 飞鸟加速器 | 狗急加速器 | hammer加速器 | trafficace | 原子加速器 | 葫芦加速器 | 麦旋风 | 油管加速器 | anycastly | INS加速器 | INS加速器免费版 | 免费vqn加速外网 | 旋风加速器 | 快橙加速器 | 啊哈加速器 | 迷雾通 | 优途加速器 | 海外播 | 坚果加速器 | 海外vqn加速 | 蘑菇加速器 | 毛豆加速器 | 接码平台 | 接码S | 西柚加速器 | 快柠檬加速器 | 黑洞加速 | falemon | 快橙加速器 | anycast加速器 | ibaidu | moneytreeblog | 坚果加速器 | 派币加速器 | 飞鸟加速器 | 毛豆APP | PIKPAK | 安卓vqn免费 | 一元机场加速器 | 一元机场 | 老王加速器 | 黑洞加速器 | 白石山 | 小牛加速器 | 黑洞加速 | 迷雾通官网 | 迷雾通 | 迷雾通加速器 | 十大免费加速神器 | 猎豹加速器 | 蚂蚁加速器 | 坚果加速器 | 黑洞加速 | 银河加速器 | 猎豹加速器 | 海鸥加速器 | 芒果加速器 | 小牛加速器 | 极光加速器 | 黑洞加速 | movabletype中文网 | 猎豹加速器官网 | 烧饼哥加速器官网 | 旋风加速器度器 | 哔咔漫画 | PicACG | 雷霆加速