谷歌DeepMind最新成果:机器人灵巧操作服务我们日常生活

本文主要是介绍谷歌DeepMind最新成果:机器人灵巧操作服务我们日常生活,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

谷歌DeepMind最新成果:机器人灵巧操作服务我们日常生活
CAAI认知系统与信息处理专委会 2024-01-13 00:00 发表于北京
几乎是和斯坦福“炒虾洗碗”机器人同一时间,谷歌DeepMind也发布了最新具身智能成果。

并且是三连发:

先是一个主打提高决策速度的新模型,让机器人的操作速度(相比原来的Robotics Transformer)提高了14%——快的同时,质量也没有下滑,准确度还上升了10.6%。
在这里插入图片描述

然后再来一个专攻泛化能力的新框架,可以给机器人创建运动轨迹提示,让它面对41项从未见过的任务,取得了63%的成功率。
在这里插入图片描述

别小看这个数组,对比之前的29%,进步可谓相当大。

最后是一个机器人数据收集系统,可以一次管理20个机器人,目前已从它们的活动中收集了77000次实验数据,它们将帮助谷歌更好地完成后续训练工作。
在这里插入图片描述

那么,这三个成果具体是什么样?我们一个一个来看。

机器人日常化第一步:没见过的任务也能直接做
谷歌认为,要生产出真正可进入现实世界的机器人,必须要解决两个基本挑战:

1、新任务推广能力

2、提高决策速度

本次三连发的前两项成果就主要在这两大领域作出改进,且都建立在谷歌的基础机器人模型Robotics Transformer(简称RT)之上。

首先来看第一个:帮助机器人泛化的RT-Trajectory。

对于人类来说,譬如完成擦桌子这种任务简直再好理解不过了,但机器人却不是很懂。

不过好在我们可以通过多种可能的方式将这一指令传达给它,让它作出实际的物理行动。

一般来说,传统的方式就是将任务映射为一个个特定的动作,然后让机械臂完成,例如对于擦桌子,就可以拆解为“合上夹具、向左移动、向右移动”。

很明显,这种方式的泛化能力很差。

在此,谷歌新提出的RT-Trajectory通过给机器人提供视觉提示的方法来教它完成任务。

在这里插入图片描述

具体而言,由RT-Trajectory控制的机器人在训练时会加入2D轨迹增强的数据。

这些轨迹以RGB图像的形式呈现,包括路线和关键点,在机器人学习执行任务时提供低级但非常实用的提示。

有了这个模型,机器人执行从未见过的任务的成功率直接提高了1倍之多(相比谷歌的基础机器人模型RT-2,从29%=>63%)。

更值得一提的是,RT-Trajectory可以用多种方式来创建轨迹,包括:
通过观看人类演示、接受手绘草图,以及通过VLM(视觉语言模型)来生成。

在这里插入图片描述

机器人日常化第二步:决策速度一定要快
泛化能力上来以后,我们再来关注决策速度。

谷歌的RT模型采用的是Transformer架构,虽然Transformer功能强大,但严重依赖于有着二次复杂度的注意力模块。

因此,一旦RT模型的输入加倍(例如给机器人配上更高分辨率的传感器),处理起来所需的计算资源就会增加为原来的四倍,这将严重减慢决策速度。

为了提高机器人的速度,谷歌在基础模型Robotics Transformer上开发了SARA-RT。

SARA-RT使用一种新的模型微调方法让原来的RT模型变得更为高效。

这种方法被谷歌称之为“向上训练”,它主要的功能就是将原来的二次复杂度转换为线性复杂度,同时保持处理质量。

将SARA-RT应用于具有数十亿参数的RT-2模型时,后者可以在各种任务上实现更快的操作速度以及更高的准确率。

同样值得一提的是,SARA-RT提供的是一种通用的加速Transformer的方法,且无需进行昂贵的预训练,因此可以很好地推广开来。

数据不够?自己创造
最后,为了帮助机器人更好地理解人类下达的任务,谷歌还从数据下手,直接搞了一个收集系统:AutoRT。

这个系统将大模型(包括LLM和VLM)与机器人控制模型(RT)相结合,不断地指挥机器人去执行现实世界中的各种任务,从而产生数据并收集。

具体流程如下:

让机器人“自由”接触环境,靠近目标。

然后通过摄像头以及VLM模型来描述眼前的场景,包括具体有哪些物品。

接着,LLM就通过这些信息来生成几项不同的任务。

注意了,生成以后机器人并不马上执行,而是利用LLM再过滤一下哪些任务可以独立搞定,哪些需要人类远程控制,以及哪些压根不能完成。

像不能完成的就是“打开薯片袋”这种,因为这需要两只机械臂(默认只有1只)。
在这里插入图片描述

再然后,做完这个筛选任务以后,机器人就可以去实际执行了。

最后由AutoRT系统完成数据收集并进行多样性评估。

据介绍,AutoRT可一次同时协调多达20个机器人,在7个月的时间内,一共收集了包括6650个独特任务在内的77000次试验数据。

最后,对于此系统,谷歌还特别强调了安全性。

毕竟AutoRT的收集任务作用于现实世界,“安全护栏”不能少。

具体而言,基础安全守则由为机器人进行任务筛选的LLM提供,它的部分灵感来自艾萨克·阿西莫夫的机器人三定律——首先也是最重要的是“机器人不得伤害人类。

其次还包括要求机器人不得尝试涉及人类、动物、尖锐物体或电器的任务。

但这还远远不够。

因此AutoRT还配有常规机器人技术中的多层实用安全措施。

例如,机器人在其关节上的力超过给定阈值时自动停止、所有行动都可由保持在人类视线范围内的物理开关停止等等。

在这里插入图片描述

还想进一步了解谷歌的这批最新成果?

好消息,除了RT-Trajectory只上线论文以外,其余都是代码和论文一并公布,欢迎大家进一步查阅~

One More Thing
说起谷歌机器人,就不得不提RT-2(本文的所有成果也都建立之上)。

这个模型由54位谷歌研究员耗时7个月打造,今年7月底问世。

嵌入了视觉-文本多模态大模型VLM的它,不仅能理解“人话”,还能对“人话”进行推理,执行一些并非一步就能到位的任务,例如从狮子、鲸鱼、恐龙这三个塑料玩具中准确捡起“已灭绝的动物”,非常惊艳。

在这里插入图片描述

如今的它,在短短5个多月内便迎来了泛化能力和决策速度的迅速提升,不由地让我们感叹:不敢想象,机器人真正冲进千家万户,究竟会有多快?

这篇关于谷歌DeepMind最新成果:机器人灵巧操作服务我们日常生活的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/602830

相关文章

python panda库从基础到高级操作分析

《pythonpanda库从基础到高级操作分析》本文介绍了Pandas库的核心功能,包括处理结构化数据的Series和DataFrame数据结构,数据读取、清洗、分组聚合、合并、时间序列分析及大数据... 目录1. Pandas 概述2. 基本操作:数据读取与查看3. 索引操作:精准定位数据4. Group

Python操作PDF文档的主流库使用指南

《Python操作PDF文档的主流库使用指南》PDF因其跨平台、格式固定的特性成为文档交换的标准,然而,由于其复杂的内部结构,程序化操作PDF一直是个挑战,本文主要为大家整理了Python操作PD... 目录一、 基础操作1.PyPDF2 (及其继任者 pypdf)2.PyMuPDF / fitz3.Fre

最新Spring Security的基于内存用户认证方式

《最新SpringSecurity的基于内存用户认证方式》本文讲解SpringSecurity内存认证配置,适用于开发、测试等场景,通过代码创建用户及权限管理,支持密码加密,虽简单但不持久化,生产环... 目录1. 前言2. 因何选择内存认证?3. 基础配置实战❶ 创建Spring Security配置文件

Python对接支付宝支付之使用AliPay实现的详细操作指南

《Python对接支付宝支付之使用AliPay实现的详细操作指南》支付宝没有提供PythonSDK,但是强大的github就有提供python-alipay-sdk,封装里很多复杂操作,使用这个我们就... 目录一、引言二、准备工作2.1 支付宝开放平台入驻与应用创建2.2 密钥生成与配置2.3 安装ali

MySQL 强制使用特定索引的操作

《MySQL强制使用特定索引的操作》MySQL可通过FORCEINDEX、USEINDEX等语法强制查询使用特定索引,但优化器可能不采纳,需结合EXPLAIN分析执行计划,避免性能下降,注意版本差异... 目录1. 使用FORCE INDEX语法2. 使用USE INDEX语法3. 使用IGNORE IND

Spring Boot 与微服务入门实战详细总结

《SpringBoot与微服务入门实战详细总结》本文讲解SpringBoot框架的核心特性如快速构建、自动配置、零XML与微服务架构的定义、演进及优缺点,涵盖开发环境准备和HelloWorld实战... 目录一、Spring Boot 核心概述二、微服务架构详解1. 微服务的定义与演进2. 微服务的优缺点三

Python使用openpyxl读取Excel的操作详解

《Python使用openpyxl读取Excel的操作详解》本文介绍了使用Python的openpyxl库进行Excel文件的创建、读写、数据操作、工作簿与工作表管理,包括创建工作簿、加载工作簿、操作... 目录1 概述1.1 图示1.2 安装第三方库2 工作簿 workbook2.1 创建:Workboo

RabbitMQ消息总线方式刷新配置服务全过程

《RabbitMQ消息总线方式刷新配置服务全过程》SpringCloudBus通过消息总线与MQ实现微服务配置统一刷新,结合GitWebhooks自动触发更新,避免手动重启,提升效率与可靠性,适用于配... 目录前言介绍环境准备代码示例测试验证总结前言介绍在微服务架构中,为了更方便的向微服务实例广播消息,

Ubuntu 24.04启用root图形登录的操作流程

《Ubuntu24.04启用root图形登录的操作流程》Ubuntu默认禁用root账户的图形与SSH登录,这是为了安全,但在某些场景你可能需要直接用root登录GNOME桌面,本文以Ubuntu2... 目录一、前言二、准备工作三、设置 root 密码四、启用图形界面 root 登录1. 修改 GDM 配

MySQL 迁移至 Doris 最佳实践方案(最新整理)

《MySQL迁移至Doris最佳实践方案(最新整理)》本文将深入剖析三种经过实践验证的MySQL迁移至Doris的最佳方案,涵盖全量迁移、增量同步、混合迁移以及基于CDC(ChangeData... 目录一、China编程JDBC Catalog 联邦查询方案(适合跨库实时查询)1. 方案概述2. 环境要求3.