从0开始学杂项第八期：流量分析(2) 数据提取

本文主要是介绍从0开始学杂项第八期：流量分析(2) 数据提取，希望对大家解决编程问题提供一定的参考价值，需要的开发者们随着小编来一起学习吧！

Misc 学习（八） - 流量分析：数据提取

这一期，我们主要写一下如何进行比较繁多的数据的提取。

使用 Tshark 批量提取数据

有时候，我们会需要从多个包中提取数据，然后再进行截取和组合，比如分析一个布尔盲注的流量文件等，这时，Tshark就派上了它的用场。

Tshark 是 Wireshark 的命令行版，可以高效快捷地提取数据，从而省去了繁杂的脚本编写。

tshark.exe -r 123.pacp -T fields -e frame.time_relative -e ip.src -e ip.dst -e ip.proto -e frame.len -E header=y -E separator=, > out123.csv-r 123.pcap	读取要分析的报文记录文件（pcap）
-T fields	输出格式，选 fields 按字段，还有其他选项，比如json等其他格式，必须结合-E和-e一起使用
-e 取出某个字段（提取出的csv文件将以此作为字段名，如 -e ip.src （发送地址）-e ip.dst（目标地址） -e ip.proto -e frame.len）
-Y 筛选过滤报文，与wireshark的过滤器基本一致，例：-Y 'http.host == "web-server1"'
-E header=y	输出是否有表头，y表示有表头，n表示没有表头
-E separator=,	以逗号作为分隔符

光看不做，可能大家看不大懂，那就找个例子给大家演示一下：

在这里插入图片描述

我们的目的，是在这个流量文件中，提取出如图所示的json格式的用户数据。那我们首先要明确两个问题：1. 如何筛选出需要提取出数据的包？2. 应该提取每个包中的哪个部分？

筛选

确定筛选的范围，我们可以使用Wireshark的过滤器可视化地确定范围。对于这个题目，我们知道要提取的是JSON，可以使用json进行过滤：

在这里插入图片描述

提取

接下来就是确定提取包里的哪些东西，这个题里我们不需要提取ip之类的东西，只需要提取出JSON就可以了。那有些同学可能就想了，能不能提取json呢，同学们可以试一下，结果我就不说了。这里，我们可以点击这块数据，就可以看到最下方显示了这块数据的成分：tcp.segment_data，我们就可以提取每个含有json包中的tcp.segment_data。

在这里插入图片描述

构造命令

根据上文，我们可以构造出如下命令：

tshark -r data.pcapng -T fields -e tcp.segment_data -Y 'json' -E header=n -E separator=, > out123.csv# 其中：
# -r data.pcapng：从data.pcapng中提取
# -T fields：按字段提取
# -e tcp.segment_data：提取tcp.segment_data
# -Y 'json'：筛选‘json’
# -E header=n -E separator=,：不要表头，以逗号为分隔符