使用 MitmProxy 玩爬虫的，这篇文章别错过了！

本文主要是介绍使用 MitmProxy 玩爬虫的，这篇文章别错过了！，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

这是「进击的Coder」的第 399 篇技术分享

作者：李运辰

来源：Python 研究者

“

阅读本文大概需要 7 分钟。

”

玩爬虫的小伙伴都知道，抓包工具除了 MitmProxy 外，还有 Fiddler、Charles 以及浏览器 netwrok 等

既然都有这么多抓包工具了，为什么还要会用 MitmProxy 呢？？今天教大家使用 MitmProxy 抓包工具的原因，主要有以下几点：

不需要安装软件，直接在线（浏览器）进行抓包（包括手机端和 PC 端）
配合 Python 脚本抓包改包（下面会有案例）
抓包过程的所有数据包都可以自动保留到 txt 里面，方便过滤分析
使用相对简单，易上手。

1. 配置MitmProxy

MitmProxy 可以说是客户端，也可以说是一个 python 库

方式一：客户端

https://mitmproxy.org/downloads/

在这个地址下可以下载对应的客户端安装即可

方式二：Python 库

pip install mitmproxy

通过这个 pip 命令可以下载好 MitmProxy，下面将会以 Python 库的使用方式给大家讲解如何使用（推荐方式二）

2. 启动MitmProxy

MitmProxy 启动有三个命令（三种模式）

mitmproxy，提供命令行界面
mitmdump，提供一个简单的终端输出（还可以配合 Python 抓包改包）
mitmweb，提供在线浏览器抓包界面

mitmdump 启动

mitmdump -w d://lyc.txt

这样就启动 mitmdump，接着在本地设置代理 Ip 是本机 IP，端口 8080

安装证书

访问下面这个链接

http://mitm.it/

可以选择自己的设备（window，或者 Android、Apple 设备去）安装证书。

然后随便打开一个网页，比如百度

这里是因为证书问题，提示访问百度提示 https 证书不安全，那么下面开始解决这个问题，因此就引出了下面的这种启动方式

浏览器代理式启动

哪一个浏览器都可以，下面以 Chrome 浏览器为例（其他浏览器操作一样）

先找到 chrome 浏览器位置，我的 chrome 浏览器位置如下图

通过下面命令启动

"C:\Users\Administrator\AppData\Local\Google\Chrome\Application\chrome.exe" --proxy-server=127.0.0.1:8080 --ignore-certificate-errors

--proxy-server 是设置代理和端口
--ignore-certificate-errors是忽略证书

然后会弹出来 Chrome 浏览器，接着我们搜索知乎

在 cmd 中就可以看到数据包

这些文本数据可以在编程中进行相应的操作，比如可以放到 python 中进行过来监听处理。

3. 启动Mitmweb

新开一个 cmd（终端）窗口，输入下来命令启动 mitmweb

mitmweb

之后会在浏览器自动打开一个网页（其实手动打开也可以，地址就是：http://127.0.0.1:8081）

现在页面中什么也没有，那下面我们在刷新一个知乎页面

重点：关闭 mitmproxy 终端！关闭 mitmproxy 终端！关闭 mitmproxy 终端!

如果不改变在 mitmweb 中获取不到数据，数据只在 mitmproxy 中，因此需要关闭 mitmproxy 这个命令终端

刷新知乎页面之后如下：

在刚刚的网页版抓包页面就可以看到数据包了

并且还包括 https 类型，比如查看其中一个数据包，找到数据是对应的，说明抓包成功。

4. 配合 Python 脚本

mitmproxy 代理（抓包）工具最强大之处在于对 python 脚本的支持（可以在 python 代码中直接处理数据包）

下面开始演示，先新建一个 py 文件（lyc.py）

from mitmproxy import ctx# 所有发出的请求数据包都会被这个方法所处理
# 所谓的处理，我们这里只是打印一下一些项；当然可以修改这些项的值直接给这些项赋值即可
def request(flow):# 获取请求对象request = flow.request# 实例化输出类info = ctx.log.info# 打印请求的urlinfo(request.url)# 打印请求方法info(request.method)# 打印host头info(request.host)# 打印请求端口info(str(request.port))# 打印所有请求头部info(str(request.headers))# 打印cookie头info(str(request.cookies))
# 所有服务器响应的数据包都会被这个方法处理
# 所谓的处理，我们这里只是打印一下一些项
def response(flow):# 获取响应对象response = flow.response# 实例化输出类info = ctx.log.info# 打印响应码info(str(response.status_code))# 打印所有头部info(str(response.headers))# 打印cookie头部info(str(response.cookies))# 打印响应报文内容info(str(response.text))

在终端中输入一下命令启动

mitmdump.exe -s lyc.py

（PS：这里需要通过另一个端启动浏览器）

"C:\Users\Administrator\AppData\Local\Google\Chrome\Application\chrome.exe" --proxy-server=127.0.0.1:8080 --ignore-certificate-errors

然后访问网页（http://www.chenlove.cn）,这里就以我自己的个人网站为例

在终端中就可以看到信息

这些信息就是我们在 lyc.py 中指定的显示信息。

PS：在手机上配置好代理之后，mitmproxy 同样可以抓取手机端数据，这里的具体操作和我之前这篇文章一样【以某乎为实战案例，教你用 Python 爬取手机 App 数据】，只不过是抓包工具不一样而已。

5. 总结一下

不需要安装软件，直接在线（浏览器）进行抓包（包括手机端和 PC 端）
配合 Python 脚本抓包改包。
抓包过程的所有数据包都可以自动保留到 txt 里面，方便过滤分析
使用相对简单，易上手。

End

「进击的Coder」专属学习群已正式成立，搜索「CQCcqc4」添加崔庆才的个人微信或者扫描下方二维码拉您入群交流学习。

看完记得关注@进击的Coder

及时收看更多好文

↓↓↓

好文和朋友一起看~

这篇关于使用 MitmProxy 玩爬虫的，这篇文章别错过了！的文章就介绍到这儿，希望我们推荐的文章对编程师们有所帮助！

使用 MitmProxy 玩爬虫的，这篇文章别错过了！

1. 配置MitmProxy

方式一：客户端

方式二：Python 库

2. 启动MitmProxy

mitmdump 启动

安装证书

浏览器代理式启动

3. 启动Mitmweb

4. 配合 Python 脚本

5. 总结一下

相关文章

Java中流式并行操作parallelStream的原理和使用方法

Linux join命令的使用及说明

Linux jq命令的使用解读

Linux kill正在执行的后台任务 kill进程组使用详解

详解SpringBoot+Ehcache使用示例

Java 虚拟线程的创建与使用深度解析

k8s按需创建PV和使用PVC详解

Redis 基本数据类型和使用详解

Redis中Hash从使用过程到原理说明

Linux创建服务使用systemctl管理详解