【论文速读】|理解基于大语言模型的模糊测试驱动程序生成

2024-04-27 11:28

本文主要是介绍【论文速读】|理解基于大语言模型的模糊测试驱动程序生成,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

图片

本次分享论文:Understanding Large Language Model Based Fuzz Driver Generation

基本信息

原文作者:Cen Zhang, Mingqiang Bai, Yaowen Zheng, Yeting Li, Xiaofei Xie, Yuekang Li, Wei Ma, Limin Sun, Yang Liu

作者单位:南洋理工大学, 中国科学院信息工程研究所, 新加坡管理大学, 新南威尔士大学

关键词:模糊驱动生成,模糊测试,大语言模型

原文链接:https://arxiv.org/abs/2307.12469

开源代码:未提供

论文要点

论文简介本研究探讨了使用大语言模型(LLMs)自动生成Fuzz驱动程序的可行性与挑战。通过设计五种查询策略,从基础到增强,系统性地分析了生成Fuzz驱动程序的过程,并通过与工业界使用的驱动程序进行比较,揭示了其实用性和潜在的改进方向。

研究目的:解决Fuzz测试中驱动程序编写的自动化问题,提高生成有效Fuzz驱动程序的能力,减少人工编写的需求。

研究贡献:

(1)首次深入研究基于LLM的Fuzz驱动程序生成的有效性;

(2)设计并实现了五种生成策略,通过大规模评估验证了其有效性;

(3)构建了首个可以大规模评估生成Fuzz驱动程序的框架;

(4)与工业界使用的驱动程序进行了比较,总结了未来改进的方向。

引言

本文介绍了Fuzz测试的必要性和重要性,特别是在发现零日漏洞方面。Fuzz驱动程序是Fuzz测试不可或缺的组成部分,因为它们允许直接执行目标程序。一个有效的驱动程序必须包含正确且健壮的API使用方式,错误或不合理的使用可能会导致大量虚假的正面或负面结果,从而浪费测试资源。尽管Fuzz驱动程序通常需要由人类专家编写,这一过程既费时又费力,但通过使用LLM,研究人员可以尝试自动生成这些驱动程序,简化和加速这一过程。

研究背景

本研究背景部分详细介绍了自动化Fuzz驱动程序生成的挑战及其在安全测试中的重要性。Fuzz测试作为一种有效的软件测试方法,能够发现程序中的漏洞,尤其是那些难以通过传统测试手段发现的缺陷。然而,Fuzz测试的效率和效果很大程度上依赖于高质量的驱动程序。传统的驱动程序生成方法多依赖于手工编写或特定的程序分析工具,这不仅耗时耗力,而且难以适应日益增长的测试需求。本研究通过引入大语言模型(LLM),探索了一种新的自动化生成方法,旨在提高Fuzz驱动程序生成的自动化程度和适应性,从而更有效地支持复杂软件系统的安全测试需求。

研究方法

本研究旨在通过构建一个综合评估框架来评估不同问题生成策略对结果的影响。首先,研究探讨了基础查询策略(Research Question 1, RQ1),采用了基本的API信息和与大语言模型(LLM)的初步互动。其次,研究扩展至更复杂的查询策略(Research Question 2, RQ2),这些策略不仅涉及了更广泛的API应用,还引入了交互式查询功能。进一步地,研究比较了由LLM生成的模糊测试驱动程序与开源软件Fuzzing工具(OSS-Fuzz)生成的驱动程序,深入分析了它们在生成测试用例时的效能和局限性(Research Question 3, RQ3)。这些方法相互补充,共同构成了一个全面的实验设计,旨在评估生成策略的有效性。

研究策略

基本策略:基本策略主要针对简单的API信息进行一次性查询,即仅使用API的基础数据如函数声明和头文件名称。这种策略的目的是快速生成基础但可行的Fuzz驱动程序,用于初步的Fuzz测试。基本策略适用于API使用较为直接和简单的情况,能够在没有复杂依赖或深入API细节知识的情况下快速产生结果。

图片

增强策略:为了处理更复杂的API使用场景并提高生成的Fuzz驱动程序的质量,研究团队设计了多种增强策略。这些策略包括:

图片

1. 利用API文档:通过整合API的官方文档信息,增强策略能够提供更丰富的上下文,帮助模型更准确地理解API的功能和使用方法。这种策略特别适用于API文档详尽且结构化良好的情况。

2. 引入示例代码:将实际的API使用示例代码纳入查询中,可以显著提升模型生成代码的实用性和准确性。示例代码提供了具体的使用场景,使得模型能够在生成过程中模仿这些实际应用,从而生成更加有效和实用的驱动程序。

3. 交互式查询:通过与模型进行交互式对话,逐步调整和优化查询内容,增强策略能够在生成过程中不断纠正和改进,适应复杂的编程需求。这包括基于先前生成结果的反馈进行迭代查询,以细化和优化驱动程序。

驱动程序

在这篇论文中,驱动程序部分详细探讨了如何利用大语言模型(LLM)自动生成Fuzz测试的驱动程序。研究首先基于基本API信息进行单次查询,这是最简单的策略。为了提升生成效果,研究者引入了增强策略,比如结合API的文档和示例代码进行查询,以及与模型的交互式对话,使得生成的驱动程序更加准确和实用。通过这种方式,生成的驱动程序能够在实际的Fuzz测试中表现出较高的有效性和竞争力,从而显著提高了测试的自动化和效率。这项研究展示了利用语言模型处理复杂编程任务的潜力,为自动化软件测试领域带来了新的技术突破。

图片

论文结论

在本论文中,作者首次深入研究了利用大语言模型(LLM)生成Fuzz驱动程序的实用性和挑战。通过设计和实施了基础到增强的多种查询策略,验证了这些策略在自动生成驱动程序中的有效性。研究结果表明,利用LLM进行驱动程序生成显示出了良好的实用性和竞争力。64%的问题可以完全自动解决,如果加入手动的语义验证,这一比例可以提高到91%。然而,研究也揭示了该方法在处理需要复杂API使用细节的驱动程序时的局限性。未来的工作将聚焦于如何通过自动化语义正确性验证、扩展API使用及优化查询策略等方面来进一步提升系统的性能和实用性。

原作者:论文解读智能体

校对:小椰风

图片

 

这篇关于【论文速读】|理解基于大语言模型的模糊测试驱动程序生成的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/940381

相关文章

Java使用Javassist动态生成HelloWorld类

《Java使用Javassist动态生成HelloWorld类》Javassist是一个非常强大的字节码操作和定义库,它允许开发者在运行时创建新的类或者修改现有的类,本文将简单介绍如何使用Javass... 目录1. Javassist简介2. 环境准备3. 动态生成HelloWorld类3.1 创建CtC

GO语言短变量声明的实现示例

《GO语言短变量声明的实现示例》在Go语言中,短变量声明是一种简洁的变量声明方式,使用:=运算符,可以自动推断变量类型,下面就来具体介绍一下如何使用,感兴趣的可以了解一下... 目录基本语法功能特点与var的区别适用场景注意事项基本语法variableName := value功能特点1、自动类型推

GO语言中函数命名返回值的使用

《GO语言中函数命名返回值的使用》在Go语言中,函数可以为其返回值指定名称,这被称为命名返回值或命名返回参数,这种特性可以使代码更清晰,特别是在返回多个值时,感兴趣的可以了解一下... 目录基本语法函数命名返回特点代码示例命名特点基本语法func functionName(parameters) (nam

Python从Word文档中提取图片并生成PPT的操作代码

《Python从Word文档中提取图片并生成PPT的操作代码》在日常办公场景中,我们经常需要从Word文档中提取图片,并将这些图片整理到PowerPoint幻灯片中,手动完成这一任务既耗时又容易出错,... 目录引言背景与需求解决方案概述代码解析代码核心逻辑说明总结引言在日常办公场景中,我们经常需要从 W

Go语言连接MySQL数据库执行基本的增删改查

《Go语言连接MySQL数据库执行基本的增删改查》在后端开发中,MySQL是最常用的关系型数据库之一,本文主要为大家详细介绍了如何使用Go连接MySQL数据库并执行基本的增删改查吧... 目录Go语言连接mysql数据库准备工作安装 MySQL 驱动代码实现运行结果注意事项Go语言执行基本的增删改查准备工作

C#使用Spire.XLS快速生成多表格Excel文件

《C#使用Spire.XLS快速生成多表格Excel文件》在日常开发中,我们经常需要将业务数据导出为结构清晰的Excel文件,本文将手把手教你使用Spire.XLS这个强大的.NET组件,只需几行C#... 目录一、Spire.XLS核心优势清单1.1 性能碾压:从3秒到0.5秒的质变1.2 批量操作的优雅

Go语言使用Gin处理路由参数和查询参数

《Go语言使用Gin处理路由参数和查询参数》在WebAPI开发中,处理路由参数(PathParameter)和查询参数(QueryParameter)是非常常见的需求,下面我们就来看看Go语言... 目录一、路由参数 vs 查询参数二、Gin 获取路由参数和查询参数三、示例代码四、运行与测试1. 测试编程路

Python使用python-pptx自动化操作和生成PPT

《Python使用python-pptx自动化操作和生成PPT》这篇文章主要为大家详细介绍了如何使用python-pptx库实现PPT自动化,并提供实用的代码示例和应用场景,感兴趣的小伙伴可以跟随小编... 目录使用python-pptx操作PPT文档安装python-pptx基础概念创建新的PPT文档查看

Go语言使用net/http构建一个RESTful API的示例代码

《Go语言使用net/http构建一个RESTfulAPI的示例代码》Go的标准库net/http提供了构建Web服务所需的强大功能,虽然众多第三方框架(如Gin、Echo)已经封装了很多功能,但... 目录引言一、什么是 RESTful API?二、实战目标:用户信息管理 API三、代码实现1. 用户数据

在ASP.NET项目中如何使用C#生成二维码

《在ASP.NET项目中如何使用C#生成二维码》二维码(QRCode)已广泛应用于网址分享,支付链接等场景,本文将以ASP.NET为示例,演示如何实现输入文本/URL,生成二维码,在线显示与下载的完整... 目录创建前端页面(Index.cshtml)后端二维码生成逻辑(Index.cshtml.cs)总结