使用 MitmProxy 玩爬虫的,这篇文章别错过了!

2024-05-15 12:08

本文主要是介绍使用 MitmProxy 玩爬虫的,这篇文章别错过了!,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

这是「进击的Coder」的第 399 篇技术分享

作者:李运辰

来源:Python 研究者

阅读本文大概需要 7 分钟。

玩爬虫的小伙伴都知道,抓包工具除了 MitmProxy 外,还有 Fiddler、Charles 以及浏览器 netwrok 等

既然都有这么多抓包工具了,为什么还要会用 MitmProxy 呢??今天教大家使用 MitmProxy  抓包工具的原因,主要有以下几点:

  1. 不需要安装软件,直接在线(浏览器)进行抓包(包括手机端和 PC 端)

  2. 配合 Python 脚本抓包改包(下面会有案例)

  3. 抓包过程的所有数据包都可以自动保留到 txt 里面,方便过滤分析

  4. 使用相对简单,易上手。

1. 配置MitmProxy

MitmProxy 可以说是客户端,也可以说是一个 python 库

方式一:客户端

https://mitmproxy.org/downloads/

在这个地址下可以下载对应的客户端安装即可

方式二:Python 库

pip install mitmproxy

通过这个 pip 命令可以下载好 MitmProxy,下面将会以 Python 库的使用方式给大家讲解如何使用(推荐方式二)

2. 启动MitmProxy

MitmProxy 启动有三个命令(三种模式)

  1. mitmproxy,提供命令行界面

  2. mitmdump,提供一个简单的终端输出(还可以配合 Python 抓包改包)

  3. mitmweb,提供在线浏览器抓包界面

mitmdump 启动

mitmdump -w d://lyc.txt

这样就启动 mitmdump,接着在本地设置代理 Ip 是本机 IP,端口 8080

安装证书

访问下面这个链接

http://mitm.it/

可以选择自己的设备(window,或者 Android、Apple 设备去)安装证书。

然后随便打开一个网页,比如百度

这里是因为证书问题,提示访问百度提示 https 证书不安全,那么下面开始解决这个问题,因此就引出了下面的这种启动方式

浏览器代理式启动

哪一个浏览器都可以,下面以 Chrome 浏览器为例(其他浏览器操作一样)

先找到 chrome 浏览器位置,我的 chrome 浏览器位置如下图

通过下面命令启动

"C:\Users\Administrator\AppData\Local\Google\Chrome\Application\chrome.exe" --proxy-server=127.0.0.1:8080 --ignore-certificate-errors
  • --proxy-server 是设置代理和端口

  • --ignore-certificate-errors是忽略证书

然后会弹出来 Chrome 浏览器,接着我们搜索知乎

在 cmd 中就可以看到数据包

这些文本数据可以在编程中进行相应的操作,比如可以放到 python 中进行过来监听处理。

3. 启动Mitmweb

新开一个 cmd(终端)窗口,输入下来命令启动 mitmweb

mitmweb

之后会在浏览器自动打开一个网页(其实手动打开也可以,地址就是:http://127.0.0.1:8081)

现在页面中什么也没有,那下面我们在刷新一个知乎页面

重点:关闭 mitmproxy 终端!关闭 mitmproxy 终端!关闭 mitmproxy 终端!

如果不改变在 mitmweb 中获取不到数据,数据只在 mitmproxy 中,因此需要关闭 mitmproxy 这个命令终端

刷新知乎页面之后如下:

在刚刚的网页版抓包页面就可以看到数据包了

并且还包括 https 类型,比如查看其中一个数据包,找到数据是对应的,说明抓包成功。

4. 配合 Python 脚本

mitmproxy 代理(抓包)工具最强大之处在于对 python 脚本的支持(可以在 python 代码中直接处理数据包)

下面开始演示,先新建一个 py 文件(lyc.py)

from mitmproxy import ctx# 所有发出的请求数据包都会被这个方法所处理
# 所谓的处理,我们这里只是打印一下一些项;当然可以修改这些项的值直接给这些项赋值即可
def request(flow):# 获取请求对象request = flow.request# 实例化输出类info = ctx.log.info# 打印请求的urlinfo(request.url)# 打印请求方法info(request.method)# 打印host头info(request.host)# 打印请求端口info(str(request.port))# 打印所有请求头部info(str(request.headers))# 打印cookie头info(str(request.cookies))
# 所有服务器响应的数据包都会被这个方法处理
# 所谓的处理,我们这里只是打印一下一些项
def response(flow):# 获取响应对象response = flow.response# 实例化输出类info = ctx.log.info# 打印响应码info(str(response.status_code))# 打印所有头部info(str(response.headers))# 打印cookie头部info(str(response.cookies))# 打印响应报文内容info(str(response.text))

在终端中输入一下命令启动

mitmdump.exe -s lyc.py

(PS:这里需要通过另一个端启动浏览器)

"C:\Users\Administrator\AppData\Local\Google\Chrome\Application\chrome.exe" --proxy-server=127.0.0.1:8080 --ignore-certificate-errors

然后访问网页(http://www.chenlove.cn),这里就以我自己的个人网站为例

在终端中就可以看到信息


这些信息就是我们在 lyc.py 中指定的显示信息。

PS:在手机上配置好代理之后,mitmproxy 同样可以抓取手机端数据,这里的具体操作和我之前这篇文章一样【以某乎为实战案例,教你用 Python 爬取手机 App 数据】,只不过是抓包工具不一样而已。

5. 总结一下

  1. 不需要安装软件,直接在线(浏览器)进行抓包(包括手机端和 PC 端)

  2. 配合 Python 脚本抓包改包。

  3. 抓包过程的所有数据包都可以自动保留到 txt 里面,方便过滤分析

  4. 使用相对简单,易上手。

End

「进击的Coder」专属学习群已正式成立,搜索「CQCcqc4」添加崔庆才的个人微信或者扫描下方二维码拉您入群交流学习。

看完记得关注@进击的Coder

及时收看更多好文

↓↓↓

好文和朋友一起看~

这篇关于使用 MitmProxy 玩爬虫的,这篇文章别错过了!的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/991789

相关文章

python使用库爬取m3u8文件的示例

《python使用库爬取m3u8文件的示例》本文主要介绍了python使用库爬取m3u8文件的示例,可以使用requests、m3u8、ffmpeg等库,实现获取、解析、下载视频片段并合并等步骤,具有... 目录一、准备工作二、获取m3u8文件内容三、解析m3u8文件四、下载视频片段五、合并视频片段六、错误

gitlab安装及邮箱配置和常用使用方式

《gitlab安装及邮箱配置和常用使用方式》:本文主要介绍gitlab安装及邮箱配置和常用使用方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录1.安装GitLab2.配置GitLab邮件服务3.GitLab的账号注册邮箱验证及其分组4.gitlab分支和标签的

SpringBoot3应用中集成和使用Spring Retry的实践记录

《SpringBoot3应用中集成和使用SpringRetry的实践记录》SpringRetry为SpringBoot3提供重试机制,支持注解和编程式两种方式,可配置重试策略与监听器,适用于临时性故... 目录1. 简介2. 环境准备3. 使用方式3.1 注解方式 基础使用自定义重试策略失败恢复机制注意事项

nginx启动命令和默认配置文件的使用

《nginx启动命令和默认配置文件的使用》:本文主要介绍nginx启动命令和默认配置文件的使用,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教... 目录常见命令nginx.conf配置文件location匹配规则图片服务器总结常见命令# 默认配置文件启动./nginx

在Windows上使用qemu安装ubuntu24.04服务器的详细指南

《在Windows上使用qemu安装ubuntu24.04服务器的详细指南》本文介绍了在Windows上使用QEMU安装Ubuntu24.04的全流程:安装QEMU、准备ISO镜像、创建虚拟磁盘、配置... 目录1. 安装QEMU环境2. 准备Ubuntu 24.04镜像3. 启动QEMU安装Ubuntu4

使用Python和OpenCV库实现实时颜色识别系统

《使用Python和OpenCV库实现实时颜色识别系统》:本文主要介绍使用Python和OpenCV库实现的实时颜色识别系统,这个系统能够通过摄像头捕捉视频流,并在视频中指定区域内识别主要颜色(红... 目录一、引言二、系统概述三、代码解析1. 导入库2. 颜色识别函数3. 主程序循环四、HSV色彩空间详解

Windows下C++使用SQLitede的操作过程

《Windows下C++使用SQLitede的操作过程》本文介绍了Windows下C++使用SQLite的安装配置、CppSQLite库封装优势、核心功能(如数据库连接、事务管理)、跨平台支持及性能优... 目录Windows下C++使用SQLite1、安装2、代码示例CppSQLite:C++轻松操作SQ

Python常用命令提示符使用方法详解

《Python常用命令提示符使用方法详解》在学习python的过程中,我们需要用到命令提示符(CMD)进行环境的配置,:本文主要介绍Python常用命令提示符使用方法的相关资料,文中通过代码介绍的... 目录一、python环境基础命令【Windows】1、检查Python是否安装2、 查看Python的安

Python并行处理实战之如何使用ProcessPoolExecutor加速计算

《Python并行处理实战之如何使用ProcessPoolExecutor加速计算》Python提供了多种并行处理的方式,其中concurrent.futures模块的ProcessPoolExecu... 目录简介完整代码示例代码解释1. 导入必要的模块2. 定义处理函数3. 主函数4. 生成数字列表5.

Python中help()和dir()函数的使用

《Python中help()和dir()函数的使用》我们经常需要查看某个对象(如模块、类、函数等)的属性和方法,Python提供了两个内置函数help()和dir(),它们可以帮助我们快速了解代... 目录1. 引言2. help() 函数2.1 作用2.2 使用方法2.3 示例(1) 查看内置函数的帮助(