开源AI程序员SWE-Agent的实现方法

2024-04-08 02:36

本文主要是介绍开源AI程序员SWE-Agent的实现方法,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

1 引子

前几天,AI 编程机器人 Devin 引起了热议。传言称:程序员的饭碗就要丢了。这两天,一个类似功能的产品 SWE-Agent 开源,在 SWE-Bench 上实现了与 Devin 类似的效果。下面让我们来看看 AI 程序员的具体实现方法。

2 信息

  • 地址:https://github.com/princeton-nlp/SWE-agent
  • 功能:修复 Github 库 Issue 中的问题。

3 原理

作者提出了:Agent-Computer Interface (ACI) 代理计算机接口。优化了 Agent 与计算机之间的衔接,使LLM 能够访问、查看、编辑和执行代码文件

贡献如下:

  • 添加了编辑时运行命令的 Linter,如果语法不正确,则不允许编辑命令通过。
  • 为 Agent 提供了文件查看器,在每个回合只显示 100 行时,查看器效果最佳。作者构建的查看器支持上下文滚动,并且可以在文件中进行搜索。
  • 为 Agent 提供了专门构建全目录字符串搜索命令,并发现以简洁的方式列出匹配项很重要。因为每次向模型展示每个匹配项反而会给模型带来更大混乱。
  • 当命令的输出为空时,将返回一条消息指出:命令已成功运行,但未产生任何输出。

4 安装使用

PLAINTEXT

1
2
3
4
$ git clone https://github.com/princeton-nlp/SWE-agent
$ cd SWE-agent
$ ./setup.sh # 安装 docker 环境,用于Agent调试程序,image 不到 1G。
# 运行方法详见 README.md

在运行时,将 github issue 地址提供给推理工具,该工具将尝试解决问题。setup.sh 文件创建了一个简单的运行环境,Agent 可以在此修改和调试程序,而不会影响宿主机环境。有关与 docker 的交互,请参见下面的代码分析部分。

5 代码分析

整个项目包含 3500 行 Python 代码和 700 行 Shell 代码。其中核心部分是 sweagent 目录下的 2200 行 Python 代码。每个重要的地方都有 README 文件,非常贴心。

可能是由于代码场景与聊天场景存在明显差异,因此未使用 langchain 等库,并且依赖的库数量较少。上下文和记忆主要是自己实现的。这里主要关注作为“接口”时 Agent 如何与环境进行交互。似乎所有交互都在 sweagent 目录实现。

  • sweagent/evviroment
    • swe_env.py:主要是与 docker 环境交互,以操作 shell 命令为主;flake8 检查代码;好像是用 popen 方式实现了与 docker 内部更为复杂的交互操作。
    • utils.py:操作 docker 的工具函数。
  • sweagent/agent 则是与大模型交互部分
    • agents.py:主调入口,调用编辑器,运行代码的程序,其中 Agent 为核心类。
    • models.py:底层支持 gpt,claude, llama 等多种 LLM。
    • command.py:运行命令。
    • parsing.py:解析 LLM 返回结果。
    • history_processors.py:记录执行历史。

6 观后感

之前对 agent 与系统交互只有个模糊的概念,从 SWE-Agent 代码里可以看到具体的实现方法。

公平地说,GitHub issue 中有些问题并不容易解决,因为涉及到复杂的运行环境和前后操作,以及只能在特定条件下才能复现,而 SWE-Bench 相对简化了这些问题,提供了评测的基线,内眼可见最近 AI 在这个领域进步,进一步证明了大型模型的能力,并指明了未来努力的方向。

不过 GitHub 上那些受欢迎的代码通常适用于各种情况,而大多数程序员每天面对的只是固定环境和较小规模的代码。所以他解决我们日常问题可能也够用了。

从 SWE-Agent 中可以看到,并非一定需要颠覆性改变,而是通过解决关键性问题、进行小改进以及多次尝试所积累的经验方法,加在一起效果就是好。

展望一下:参考 RAG 到 RAG2.0,通过微调模型来优化搜索的方法。后面 Agent 用得多了,大概也会关注通过微调模型让 Agent 更好工作的逻辑。见前文:强化学习+大模型_总结篇;另外,在看 Devin 介绍视频的时候,还看到一些 Devin 连网搜索资料和操作浏览器的功能。最近也有很多人在跟进这方面的研究,估计后面也会成为一个热点。

对于程序员和设计者来说,后面可能也面临角度的转换:可能不只关注如何实现一个完整的系统,更多地关注如何将各种功能包装成高内聚的模块,并且做好接口和文档,以便将其与 Agent 集成到更大的系统中。

这篇关于开源AI程序员SWE-Agent的实现方法的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/884343

相关文章

分布式锁在Spring Boot应用中的实现过程

《分布式锁在SpringBoot应用中的实现过程》文章介绍在SpringBoot中通过自定义Lock注解、LockAspect切面和RedisLockUtils工具类实现分布式锁,确保多实例并发操作... 目录Lock注解LockASPect切面RedisLockUtils工具类总结在现代微服务架构中,分布

Java使用Thumbnailator库实现图片处理与压缩功能

《Java使用Thumbnailator库实现图片处理与压缩功能》Thumbnailator是高性能Java图像处理库,支持缩放、旋转、水印添加、裁剪及格式转换,提供易用API和性能优化,适合Web应... 目录1. 图片处理库Thumbnailator介绍2. 基本和指定大小图片缩放功能2.1 图片缩放的

Python使用Tenacity一行代码实现自动重试详解

《Python使用Tenacity一行代码实现自动重试详解》tenacity是一个专为Python设计的通用重试库,它的核心理念就是用简单、清晰的方式,为任何可能失败的操作添加重试能力,下面我们就来看... 目录一切始于一个简单的 API 调用Tenacity 入门:一行代码实现优雅重试精细控制:让重试按我

Python安装Pandas库的两种方法

《Python安装Pandas库的两种方法》本文介绍了三种安装PythonPandas库的方法,通过cmd命令行安装并解决版本冲突,手动下载whl文件安装,更换国内镜像源加速下载,最后建议用pipli... 目录方法一:cmd命令行执行pip install pandas方法二:找到pandas下载库,然后

Redis客户端连接机制的实现方案

《Redis客户端连接机制的实现方案》本文主要介绍了Redis客户端连接机制的实现方案,包括事件驱动模型、非阻塞I/O处理、连接池应用及配置优化,具有一定的参考价值,感兴趣的可以了解一下... 目录1. Redis连接模型概述2. 连接建立过程详解2.1 连php接初始化流程2.2 关键配置参数3. 最大连

Python实现网格交易策略的过程

《Python实现网格交易策略的过程》本文讲解Python网格交易策略,利用ccxt获取加密货币数据及backtrader回测,通过设定网格节点,低买高卖获利,适合震荡行情,下面跟我一起看看我们的第一... 网格交易是一种经典的量化交易策略,其核心思想是在价格上下预设多个“网格”,当价格触发特定网格时执行买

python设置环境变量路径实现过程

《python设置环境变量路径实现过程》本文介绍设置Python路径的多种方法:临时设置(Windows用`set`,Linux/macOS用`export`)、永久设置(系统属性或shell配置文件... 目录设置python路径的方法临时设置环境变量(适用于当前会话)永久设置环境变量(Windows系统

Python对接支付宝支付之使用AliPay实现的详细操作指南

《Python对接支付宝支付之使用AliPay实现的详细操作指南》支付宝没有提供PythonSDK,但是强大的github就有提供python-alipay-sdk,封装里很多复杂操作,使用这个我们就... 目录一、引言二、准备工作2.1 支付宝开放平台入驻与应用创建2.2 密钥生成与配置2.3 安装ali

Spring Security 单点登录与自动登录机制的实现原理

《SpringSecurity单点登录与自动登录机制的实现原理》本文探讨SpringSecurity实现单点登录(SSO)与自动登录机制,涵盖JWT跨系统认证、RememberMe持久化Token... 目录一、核心概念解析1.1 单点登录(SSO)1.2 自动登录(Remember Me)二、代码分析三、

PyCharm中配置PyQt的实现步骤

《PyCharm中配置PyQt的实现步骤》PyCharm是JetBrains推出的一款强大的PythonIDE,结合PyQt可以进行pythion高效开发桌面GUI应用程序,本文就来介绍一下PyCha... 目录1. 安装China编程PyQt1.PyQt 核心组件2. 基础 PyQt 应用程序结构3. 使用 Q