NVIDIA AI 研究科学家Jim Fan:人工智能探索中的下一个重大挑战:“基础代理”

本文主要是介绍NVIDIA AI 研究科学家Jim Fan:人工智能探索中的下一个重大挑战:“基础代理”,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

NVIDIA AI 的研究科学家 Jim Fan 在TED做了一次关于Foundation Agent的分享,我看完感到非常震撼,反复看了好几遍。这里给大家分享下我整理的简要中文文字版,想看英文原视频的见文章最底部的链接。

人工通用智能的研究框架

Jim Fan 认为现在针对一般能力的人工智能代理的研究工作主要是围绕着三个轴,分别是:代理可以执行的技能数量(能力),代理可以控制的身体形式或体现(具身化),以及代理可以掌握现实的能力(感受现实和反应)。

人工通用智能的研究目标

他之前被AlphaGo战胜世界围棋冠军感到震撼,但是后来发现AlphaGo的技能太少了,只会下围棋。他认为人工智能代理的目标是右上方,也就是技能,具身化和现实三个轴同时都有不错的能力的人工智能agent。

能力学习方向 Voyager

能力轴上他分享了他领导研究的 Voyager,这是一个在《我的世界》游戏中可以大规模扩展多种技能的代理。只需要给Voyager设定一个高层目标“尽可能获得多的独特物品”,然后它就可以自己不断地玩游戏,探索地形,开采各种材料,对抗怪物,制作数百种食谱等等,并解锁不断扩大的技能树。

这个代理的核心是将编码作为行动。首先,研究人员将3D世界转换为文本表示,然后调用GPT4编写js代码,这些js代码将成为游戏中的技能。代码写错了,有bug怎么办?那就增加一个“自我反思机制”来改进和提高。它利用三种反馈源:代码编译或执行报错,agent自身的状态(生命值,饥饿值等等)还有世界状态(附近的地形和物体,比如森林,树木,动物,金属等等)。

Voyager 根据自身状态和世界状态采取一个行动(写一段代码),观察行动对自身状态和世界状态的影响(观察代码是否可以正确运行,以及运行后对自己和世界的影响),反思如何做得更好(根据代码错误、代码执行后的影响反馈调整代码,使得代码可以正确编译运行并带来正收益)。它不断地尝试新的行动和计划,并反复进行。一旦技能成熟(代码可以编译和运行,并且运行后可以获得正收益),Voyager 就把它保存到技能库中,后边可以持续使用。技能库其实就是一个代码库,可以执行并且执行后能得到正反馈的代码保存在里边。

在这个探索过程中,Voyager不仅能掌握技能,还可以发现新技能。而这一切并没有预编程,都是Voyager自己的主意。这里可以看到一个终身学习的人工智能的雏形。agent永远好奇,永远追求新的尝试。相比AlphaGo,Voyager大幅拓展了agent能做的许多事情。

具身化方向 MetaMorph

虽然Voyager学会了很多技能,但它只能在《我的世界》中控制一个角色。那能不能有一个算法,可以控制不同的身体或其他形式的体现?MetaMorph就是这样一个研究项目。

这是一个基础模型,它可以同时控制成千上万的具有不同的手臂和腿部配置的机器人。MetaMorph 能够同时处理不同机器人身体的极其不同的运动特性。

MetaMorph的核心思想如下图所示,首先创造不同的词汇表来描述身体部位,这样每个机器人身体基本就是一个用词汇表编写的句子。然后将这些句子输入到类似于ChatGPT的tranformer结构中,但是这个transformer不是像ChatGPT那样输出文字,而是输出电机控制指令。

MetaMorph能够控制数千个机器人上楼,穿越复杂地形以及避开障碍物。未来,如果我们能够大大拓展这个机器人的词汇量,MetaMorph 2.0 应该可以推广到机器人手,人形机器人手,狗,无人机甚至其他具身形态。

现实感知和反应方向 IsaacSim

IsaacSim 最大的优势是加速物理模拟,它可以比现实中快1000倍以上。

比如上图的机器人手练习,以及下图的机器人学习武术,它可以仅用三天的模拟时间就可以完成在现实中要十年才能完成的刻苦练习。这很像《黑客帝国》中的虚拟陪练道场。

更重要的是,IsaacSim可以按程序生成世界,具有无限的变化,因此没有两个看起来是相同的。一个有趣的想法,如果agent可以掌握1万次模拟,那么也许就可以推广到现实中,这就是第1万零1个现实。

Foundation Agent

当我们在下图沿着不同的轴往前走的,我们最终会达到右上角,这就是Foundation Agent。这是一个具备三个轴的能力的代理。

Jim Fan 认为训练Foundation Agent将与训练ChatGPT非常相似。ChatGPT是文本进去,文本出来。

Foundation Agent就是具身化提示和任务提示进去,行动出来。

Jin Fan最后表示:他坚信未来所有可以移动的东西都将实现自主控制。

TED视频链接:

https://www.ted.com/talks/jim_fan_the_next_grand_challenge_for_ai

这篇关于NVIDIA AI 研究科学家Jim Fan:人工智能探索中的下一个重大挑战:“基础代理”的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/654695

相关文章

从基础到进阶详解Pandas时间数据处理指南

《从基础到进阶详解Pandas时间数据处理指南》Pandas构建了完整的时间数据处理生态,核心由四个基础类构成,Timestamp,DatetimeIndex,Period和Timedelta,下面我... 目录1. 时间数据类型与基础操作1.1 核心时间对象体系1.2 时间数据生成技巧2. 时间索引与数据

安装centos8设置基础软件仓库时出错的解决方案

《安装centos8设置基础软件仓库时出错的解决方案》:本文主要介绍安装centos8设置基础软件仓库时出错的解决方案,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐... 目录安装Centos8设置基础软件仓库时出错版本 8版本 8.2.200android4版本 javas

Linux基础命令@grep、wc、管道符的使用详解

《Linux基础命令@grep、wc、管道符的使用详解》:本文主要介绍Linux基础命令@grep、wc、管道符的使用,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐... 目录grep概念语法作用演示一演示二演示三,带选项 -nwc概念语法作用wc,不带选项-c,统计字节数-

python操作redis基础

《python操作redis基础》Redis(RemoteDictionaryServer)是一个开源的、基于内存的键值对(Key-Value)存储系统,它通常用作数据库、缓存和消息代理,这篇文章... 目录1. Redis 简介2. 前提条件3. 安装 python Redis 客户端库4. 连接到 Re

SpringBoot基础框架详解

《SpringBoot基础框架详解》SpringBoot开发目的是为了简化Spring应用的创建、运行、调试和部署等,使用SpringBoot可以不用或者只需要很少的Spring配置就可以让企业项目快... 目录SpringBoot基础 – 框架介绍1.SpringBoot介绍1.1 概述1.2 核心功能2

Spring AI 实现 STDIO和SSE MCP Server的过程详解

《SpringAI实现STDIO和SSEMCPServer的过程详解》STDIO方式是基于进程间通信,MCPClient和MCPServer运行在同一主机,主要用于本地集成、命令行工具等场景... 目录Spring AI 实现 STDIO和SSE MCP Server1.新建Spring Boot项目2.a

Spring Boot集成SLF4j从基础到高级实践(最新推荐)

《SpringBoot集成SLF4j从基础到高级实践(最新推荐)》SLF4j(SimpleLoggingFacadeforJava)是一个日志门面(Facade),不是具体的日志实现,这篇文章主要介... 目录一、日志框架概述与SLF4j简介1.1 为什么需要日志框架1.2 主流日志框架对比1.3 SLF4

Spring Boot集成Logback终极指南之从基础到高级配置实战指南

《SpringBoot集成Logback终极指南之从基础到高级配置实战指南》Logback是一个可靠、通用且快速的Java日志框架,作为Log4j的继承者,由Log4j创始人设计,:本文主要介绍... 目录一、Logback简介与Spring Boot集成基础1.1 Logback是什么?1.2 Sprin

如何在Ubuntu上安装NVIDIA显卡驱动? Ubuntu安装英伟达显卡驱动教程

《如何在Ubuntu上安装NVIDIA显卡驱动?Ubuntu安装英伟达显卡驱动教程》Windows系统不同,Linux系统通常不会自动安装专有显卡驱动,今天我们就来看看Ubuntu系统安装英伟达显卡... 对于使用NVIDIA显卡的Ubuntu用户来说,正确安装显卡驱动是获得最佳图形性能的关键。与Windo

MySQL复合查询从基础到多表关联与高级技巧全解析

《MySQL复合查询从基础到多表关联与高级技巧全解析》本文主要讲解了在MySQL中的复合查询,下面是关于本文章所需要数据的建表语句,感兴趣的朋友跟随小编一起看看吧... 目录前言:1.基本查询回顾:1.1.查询工资高于500或岗位为MANAGER的雇员,同时还要满足他们的姓名首字母为大写的J1.2.按照部门