【论文速读】|理解基于大语言模型的模糊测试驱动程序生成

2024-04-27 11:28

本文主要是介绍【论文速读】|理解基于大语言模型的模糊测试驱动程序生成,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

图片

本次分享论文:Understanding Large Language Model Based Fuzz Driver Generation

基本信息

原文作者:Cen Zhang, Mingqiang Bai, Yaowen Zheng, Yeting Li, Xiaofei Xie, Yuekang Li, Wei Ma, Limin Sun, Yang Liu

作者单位:南洋理工大学, 中国科学院信息工程研究所, 新加坡管理大学, 新南威尔士大学

关键词:模糊驱动生成,模糊测试,大语言模型

原文链接:https://arxiv.org/abs/2307.12469

开源代码:未提供

论文要点

论文简介本研究探讨了使用大语言模型(LLMs)自动生成Fuzz驱动程序的可行性与挑战。通过设计五种查询策略,从基础到增强,系统性地分析了生成Fuzz驱动程序的过程,并通过与工业界使用的驱动程序进行比较,揭示了其实用性和潜在的改进方向。

研究目的:解决Fuzz测试中驱动程序编写的自动化问题,提高生成有效Fuzz驱动程序的能力,减少人工编写的需求。

研究贡献:

(1)首次深入研究基于LLM的Fuzz驱动程序生成的有效性;

(2)设计并实现了五种生成策略,通过大规模评估验证了其有效性;

(3)构建了首个可以大规模评估生成Fuzz驱动程序的框架;

(4)与工业界使用的驱动程序进行了比较,总结了未来改进的方向。

引言

本文介绍了Fuzz测试的必要性和重要性,特别是在发现零日漏洞方面。Fuzz驱动程序是Fuzz测试不可或缺的组成部分,因为它们允许直接执行目标程序。一个有效的驱动程序必须包含正确且健壮的API使用方式,错误或不合理的使用可能会导致大量虚假的正面或负面结果,从而浪费测试资源。尽管Fuzz驱动程序通常需要由人类专家编写,这一过程既费时又费力,但通过使用LLM,研究人员可以尝试自动生成这些驱动程序,简化和加速这一过程。

研究背景

本研究背景部分详细介绍了自动化Fuzz驱动程序生成的挑战及其在安全测试中的重要性。Fuzz测试作为一种有效的软件测试方法,能够发现程序中的漏洞,尤其是那些难以通过传统测试手段发现的缺陷。然而,Fuzz测试的效率和效果很大程度上依赖于高质量的驱动程序。传统的驱动程序生成方法多依赖于手工编写或特定的程序分析工具,这不仅耗时耗力,而且难以适应日益增长的测试需求。本研究通过引入大语言模型(LLM),探索了一种新的自动化生成方法,旨在提高Fuzz驱动程序生成的自动化程度和适应性,从而更有效地支持复杂软件系统的安全测试需求。

研究方法

本研究旨在通过构建一个综合评估框架来评估不同问题生成策略对结果的影响。首先,研究探讨了基础查询策略(Research Question 1, RQ1),采用了基本的API信息和与大语言模型(LLM)的初步互动。其次,研究扩展至更复杂的查询策略(Research Question 2, RQ2),这些策略不仅涉及了更广泛的API应用,还引入了交互式查询功能。进一步地,研究比较了由LLM生成的模糊测试驱动程序与开源软件Fuzzing工具(OSS-Fuzz)生成的驱动程序,深入分析了它们在生成测试用例时的效能和局限性(Research Question 3, RQ3)。这些方法相互补充,共同构成了一个全面的实验设计,旨在评估生成策略的有效性。

研究策略

基本策略:基本策略主要针对简单的API信息进行一次性查询,即仅使用API的基础数据如函数声明和头文件名称。这种策略的目的是快速生成基础但可行的Fuzz驱动程序,用于初步的Fuzz测试。基本策略适用于API使用较为直接和简单的情况,能够在没有复杂依赖或深入API细节知识的情况下快速产生结果。

图片

增强策略:为了处理更复杂的API使用场景并提高生成的Fuzz驱动程序的质量,研究团队设计了多种增强策略。这些策略包括:

图片

1. 利用API文档:通过整合API的官方文档信息,增强策略能够提供更丰富的上下文,帮助模型更准确地理解API的功能和使用方法。这种策略特别适用于API文档详尽且结构化良好的情况。

2. 引入示例代码:将实际的API使用示例代码纳入查询中,可以显著提升模型生成代码的实用性和准确性。示例代码提供了具体的使用场景,使得模型能够在生成过程中模仿这些实际应用,从而生成更加有效和实用的驱动程序。

3. 交互式查询:通过与模型进行交互式对话,逐步调整和优化查询内容,增强策略能够在生成过程中不断纠正和改进,适应复杂的编程需求。这包括基于先前生成结果的反馈进行迭代查询,以细化和优化驱动程序。

驱动程序

在这篇论文中,驱动程序部分详细探讨了如何利用大语言模型(LLM)自动生成Fuzz测试的驱动程序。研究首先基于基本API信息进行单次查询,这是最简单的策略。为了提升生成效果,研究者引入了增强策略,比如结合API的文档和示例代码进行查询,以及与模型的交互式对话,使得生成的驱动程序更加准确和实用。通过这种方式,生成的驱动程序能够在实际的Fuzz测试中表现出较高的有效性和竞争力,从而显著提高了测试的自动化和效率。这项研究展示了利用语言模型处理复杂编程任务的潜力,为自动化软件测试领域带来了新的技术突破。

图片

论文结论

在本论文中,作者首次深入研究了利用大语言模型(LLM)生成Fuzz驱动程序的实用性和挑战。通过设计和实施了基础到增强的多种查询策略,验证了这些策略在自动生成驱动程序中的有效性。研究结果表明,利用LLM进行驱动程序生成显示出了良好的实用性和竞争力。64%的问题可以完全自动解决,如果加入手动的语义验证,这一比例可以提高到91%。然而,研究也揭示了该方法在处理需要复杂API使用细节的驱动程序时的局限性。未来的工作将聚焦于如何通过自动化语义正确性验证、扩展API使用及优化查询策略等方面来进一步提升系统的性能和实用性。

原作者:论文解读智能体

校对:小椰风

图片

 

这篇关于【论文速读】|理解基于大语言模型的模糊测试驱动程序生成的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/940381

相关文章

使用python生成固定格式序号的方法详解

《使用python生成固定格式序号的方法详解》这篇文章主要为大家详细介绍了如何使用python生成固定格式序号,文中的示例代码讲解详细,具有一定的借鉴价值,有需要的小伙伴可以参考一下... 目录生成结果验证完整生成代码扩展说明1. 保存到文本文件2. 转换为jsON格式3. 处理特殊序号格式(如带圈数字)4

Java使用Swing生成一个最大公约数计算器

《Java使用Swing生成一个最大公约数计算器》这篇文章主要为大家详细介绍了Java使用Swing生成一个最大公约数计算器的相关知识,文中的示例代码讲解详细,感兴趣的小伙伴可以了解一下... 目录第一步:利用欧几里得算法计算最大公约数欧几里得算法的证明情形 1:b=0情形 2:b>0完成相关代码第二步:加

从基础到高级详解Go语言中错误处理的实践指南

《从基础到高级详解Go语言中错误处理的实践指南》Go语言采用了一种独特而明确的错误处理哲学,与其他主流编程语言形成鲜明对比,本文将为大家详细介绍Go语言中错误处理详细方法,希望对大家有所帮助... 目录1 Go 错误处理哲学与核心机制1.1 错误接口设计1.2 错误与异常的区别2 错误创建与检查2.1 基础

深入理解Mysql OnlineDDL的算法

《深入理解MysqlOnlineDDL的算法》本文主要介绍了讲解MysqlOnlineDDL的算法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小... 目录一、Online DDL 是什么?二、Online DDL 的三种主要算法2.1COPY(复制法)

Go语言中json操作的实现

《Go语言中json操作的实现》本文主要介绍了Go语言中的json操作的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧... 目录 一、jsOChina编程N 与 Go 类型对应关系️ 二、基本操作:编码与解码 三、结构体标签(Struc

k8s admin用户生成token方式

《k8sadmin用户生成token方式》用户使用Kubernetes1.28创建admin命名空间并部署,通过ClusterRoleBinding为jenkins用户授权集群级权限,生成并获取其t... 目录k8s admin用户生成token创建一个admin的命名空间查看k8s namespace 的

Linux五种IO模型的使用解读

《Linux五种IO模型的使用解读》文章系统解析了Linux的五种IO模型(阻塞、非阻塞、IO复用、信号驱动、异步),重点区分同步与异步IO的本质差异,强调同步由用户发起,异步由内核触发,通过对比各模... 目录1.IO模型简介2.五种IO模型2.1 IO模型分析方法2.2 阻塞IO2.3 非阻塞IO2.4

python语言中的常用容器(集合)示例详解

《python语言中的常用容器(集合)示例详解》Python集合是一种无序且不重复的数据容器,它可以存储任意类型的对象,包括数字、字符串、元组等,下面:本文主要介绍python语言中常用容器(集合... 目录1.核心内置容器1. 列表2. 元组3. 集合4. 冻结集合5. 字典2.collections模块

基于Go语言开发一个 IP 归属地查询接口工具

《基于Go语言开发一个IP归属地查询接口工具》在日常开发中,IP地址归属地查询是一个常见需求,本文将带大家使用Go语言快速开发一个IP归属地查询接口服务,有需要的小伙伴可以了解下... 目录功能目标技术栈项目结构核心代码(main.go)使用方法扩展功能总结在日常开发中,IP 地址归属地查询是一个常见需求:

Vue3 如何通过json配置生成查询表单

《Vue3如何通过json配置生成查询表单》本文给大家介绍Vue3如何通过json配置生成查询表单,本文结合实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧... 目录功能实现背景项目代码案例功能实现背景通过vue3实现后台管理项目一定含有表格功能,通常离不开表单