← 返回文章列表

深度解析:Python网络爬虫实战——实验3:Python爬虫之文字验证码实战

【实验内容】本实验主要介绍在网络爬虫数据采集的过程中出现的常见的验证码反爬手段以及解决措施。【实验目的】1、理解验证码反爬的背景;2、掌握常见文字验证码反爬手段;3、研究解决文字验证码反爬的方法;【实验步骤】步骤1调研目标网站步骤2使用验证

【实验内容】

本实验主要介绍在网络爬虫数据采集的过程中出现的常见的验证码反爬手段以及解决措施。

【实验目的】

1、理解验证码反爬的背景;

2、掌握常见文字验证码反爬手段;

3、研究解决文字验证码反爬的方法;

【实验步骤】

步骤1 调研目标网站

步骤2使用验证码识别技术

步骤3 采集数据生成json文件

步骤1:调研目标网站

以江西政府采购网站(http://www.ccgp-jiangxi.gov.cn/web/)为例,当我们点击搜索按钮的时候,会弹出如下的验证码进行验证,用户需要输入对应正确的验证码才能获取数据。

/

===============================================================================================================================================

/

选择network的all,重新点击搜索框发起请求,可以看到如下请求接口正好是返回了图片的链接。

因此,只需要对此接口发起请求就能得到图片下载地址,然后在对图片地址发起请求就能将图片下载到本地。