具身智能(Embodied AI)

2023-10-12 04:12
文章标签 ai 智能 具身 embodied

本文主要是介绍具身智能(Embodied AI),希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

 前言

      图灵奖得主、上海期智研究院院长姚期智认为,人工智能领域下一个挑战将是实现“具身通用人工智能”,即如何构建能够通过自我学习掌握各种技能并执行现实生活中的种种通用任务的高端机器人。清华大学计算机系教授张钹院士,也在某产业智能论坛上提出,随着基础模型的突破,通用智能机器人(具身智能)是未来的发展方向。

    模型的好坏取决于数据和算力,以及算法,我们目前的数据源主要来自于各大龙头公司(存储数据较多的),比方说国外的Youtube、Flickr、Facebook,国内的各个大厂,算力取决于(CPU、GPU、TPU),目前在目标检测,自然语言处理领域取得了突出进展。

      但现在有一个很明显的问题,所有的训练数据全部来自于网络,而且这些数据被存储之后是固定的,也是鱼龙混杂的(各种数据夹杂其中,真真假假无法分辨,是否有用无法断定),在这样的数据集中,模型所学到的也是生硬的(甚至不那么合理的)规则,而且学习之后,难以主动和真实世界交互,从而继续完善本身,这样的模型,固然可以应用于真实世界,提升便利性,但从模型本身而言,它不具有进化能力。

      我们所希望的模型,是一个和人类一样,可以在不同的环境下重新学习并适应,以及不断进化的智能体,而不是一具只能执行命令的行尸走肉。

      对于人类来说,从婴儿开始就扎根于真实世界,通过观察、移动、互动和与他人交谈来学习,我们脑海中存储知识都是和环境交互后得到的适合自己的知识,而不是从混乱和随机的经验中学习的(它只能作为一种参考,绝不是主体),这才是人类感知世界的方式!

 

1.具身智能

 

      具身智能(Embodied AI):希望智能体像人类一样在真实世界中通过实践(交互)来学习,它被认为是通往通用人工智能的关键钥匙。具身的含义不是身体本身,而是与环境交互以及在环境中做事的整体需求和功能,这意味着机器人应该像人类一样通过观察、移动、说话和与世界互动来学习。简单来说,就是让智能体从数字世界走向实体世界,落地在机器人、机械臂、无人车、无人机,让实体世界中的机器人/仿真人具有智能,像人一样与环境交互感知,执行各种各样的任务。

      但让一个智能体可以在真实环境下交互,需要集成多种技术。

假设一个场景:让现在最火的机器狗去买菜,那么对于这个机器狗而言,首先它要理解人类的命令(自然语言处理),在买菜的路上,他要能识别路上的障碍(避障)和需要买的菜(目标检测),同时他要明确自己的位置(定位),找到合适的路线(决策),并在路线上准确移动(导航)。而且一般来讲,为了安全性考虑,机器人在路上行动时我们需要同时用视觉和雷达等技术去判断机器和人的安全距离,再加上自然语言处理等技术,它们之间的交互和协作也是重中之重(多模态融合)。

 

2.发展

 

      从上面例子中,我们能发现,首先从第一步,让机器人可以完全理解人类的命令就是一个很困难的事,也因此这个概念尽管早在上世纪就已经被提出,但却一直停滞不前。

      幸运的是,Chatgpt横空出世,以大语言模型为中心的技术突破让人们看到了具身智能(通用智能)的希望,简单归为以下几类。

 

2.1 大模型

 

      目前最典型的是语言大模型Chatgpt,现在各大厂也在加班研究视觉大模型。以语言大模型为例。

      语言大模型相对于传统机器学习在复杂任务理解、连续对话、零样本推理等方向有了突破进展。这让解决机器人的理解力、连续决策力、人机交互能力,有了可能。

      微软研究院发布“ChatGPT for Robotics” 文章中提到,大型语言模型 (LLM) 将人的语言快速转换为机器人的高层控制代码,从而控制机械臂、无人机等机器人。

      以前,由于传统AI不具备先验知识,理解力和泛化能力不足,机器人就无法像人一样拥有常识,必须要将一个指令由人类工程师分解成一连串简短的程式化程序,然后机器人(机械臂)再一步一步去完成每个动作。这表明机器人并不具备思考能力。

      而大语言模型赋予了机器人思考能力,可以帮助机器人更好理解运用到高级语义知识,自动化地分析自己的任务并拆分成具体的动作。

      例子,让机器人拿一个苹果,对于人类而言,他们会绕开室内的障碍物,但传统方式下,机器人并不具备“遇到障碍物要躲开”这样的常识,经常会做错事,而且不会自动错误,而大模型驱动的具身智能,就可以更好地理解这些知识,自动分解任务。

      总结而言,语言语言大模型让智能体真正有了能够理解人类的能力,并赋予了智能体思考能力,相应智能体就具备了决策能力。而未来的视觉大模型,可以让机器人准确分辨(识别)这个世界的一切。
 

2.2 多模态

 

人类观察和理解这个世界,依赖于眼耳鼻舌身意。同样对于机器人而言它也要有这些能力,对于一个苹果,它要从视觉上看出它的特征(形状,颜色),味觉上品出味道,听觉上听出苹果从高空触地时和其他东西的声音差别,从嗅觉上闻出气味,从苹果的含义上,理解它的象征意义。这样智能体才算真正的了解了这个苹果,而这些感知对于机器人而言,是各自独立的,我们需要借助多模态融合,让机器人全方位理解一个东西,这才具有和真实世界交互的基础。

 

2.3 决策

 

      传统人类将在仿真环境训练训练的能力,运用在现实世界中后,发现无法机器人无法解决,仿真环境未出现的情况,而再次训练又费时费力。

      大模型时代,具身智能模型的训练与测试,与云服务相结合,可以在云上虚拟仿真场景下,进行端到端的实时训练与测试,快速完成端侧迭代与开发,这就大大加速了具身智能体的进化速度。

      具身智能体在模拟出来的场景中无数次地尝试、学习、反馈、迭代,积累对物理世界的深度理解,产生大量交互数据,再通过与真实环境的不断交互积累经验,全面提升在复杂世界的自动移动、复杂任务的泛化能力,展现在具身载体上,就是机器人可以更好地适应环境,更灵活地运用机械“躯干”来进行人机交互。
 

写在最后:尽管人工智能被吹嘘的很美丽,但我们现在所使用的基于人工智能的机器人,是先在在仿真环境中学习,再应用于真是世界,尽管它具有很强的能力,但在真实世界中它并没有重新学习能力,现实世界中新出现的,在仿真环境中没有被训练的状况,它不能解决。但具身智能让机器人有了在真实世界中学习的能力

 

往期文章

 

1.zore-shot,迁移学习和多模态学习-CSDN博客

 

参考文献

 

1.具身智能综述和应用(Embodied AI)_上杉翔二的博客-CSDN博客

2.具身智能,是机器人的“冷饭热炒”吗?-CSDN博客 

 

这篇关于具身智能(Embodied AI)的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/193161

相关文章

使用Python构建智能BAT文件生成器的完美解决方案

《使用Python构建智能BAT文件生成器的完美解决方案》这篇文章主要为大家详细介绍了如何使用wxPython构建一个智能的BAT文件生成器,它不仅能够为Python脚本生成启动脚本,还提供了完整的文... 目录引言运行效果图项目背景与需求分析核心需求技术选型核心功能实现1. 数据库设计2. 界面布局设计3

Spring AI使用tool Calling和MCP的示例详解

《SpringAI使用toolCalling和MCP的示例详解》SpringAI1.0.0.M6引入ToolCalling与MCP协议,提升AI与工具交互的扩展性与标准化,支持信息检索、行动执行等... 目录深入探索 Spring AI聊天接口示例Function CallingMCPSTDIOSSE结束语

三频BE12000国补到手2549元! ROG 魔盒Pro WIFI7电竞AI路由器上架

《三频BE12000国补到手2549元!ROG魔盒ProWIFI7电竞AI路由器上架》近日,华硕带来了ROG魔盒ProWIFI7电竞AI路由器(ROGSTRIXGR7Pro),目前新... 华硕推出了ROG 魔盒Pro WIFI7电竞AI路由器(ROG STRIX GR7 Phttp://www.cppcn

Python办公自动化实战之打造智能邮件发送工具

《Python办公自动化实战之打造智能邮件发送工具》在数字化办公场景中,邮件自动化是提升工作效率的关键技能,本文将演示如何使用Python的smtplib和email库构建一个支持图文混排,多附件,多... 目录前言一、基础配置:搭建邮件发送框架1.1 邮箱服务准备1.2 核心库导入1.3 基础发送函数二、

基于Python实现智能天气提醒助手

《基于Python实现智能天气提醒助手》这篇文章主要来和大家分享一个实用的Python天气提醒助手开发方案,这个工具可以方便地集成到青龙面板或其他调度框架中使用,有需要的小伙伴可以参考一下... 目录项目概述核心功能技术实现1. 天气API集成2. AI建议生成3. 消息推送环境配置使用方法完整代码项目特点

JavaScript实战:智能密码生成器开发指南

本文通过JavaScript实战开发智能密码生成器,详解如何运用crypto.getRandomValues实现加密级随机密码生成,包含多字符组合、安全强度可视化、易混淆字符排除等企业级功能。学习密码强度检测算法与信息熵计算原理,获取可直接嵌入项目的完整代码,提升Web应用的安全开发能力 目录

利用Python实现Excel文件智能合并工具

《利用Python实现Excel文件智能合并工具》有时候,我们需要将多个Excel文件按照特定顺序合并成一个文件,这样可以更方便地进行后续的数据处理和分析,下面我们看看如何使用Python实现Exce... 目录运行结果为什么需要这个工具技术实现工具的核心功能代码解析使用示例工具优化与扩展有时候,我们需要将

Spring AI 实现 STDIO和SSE MCP Server的过程详解

《SpringAI实现STDIO和SSEMCPServer的过程详解》STDIO方式是基于进程间通信,MCPClient和MCPServer运行在同一主机,主要用于本地集成、命令行工具等场景... 目录Spring AI 实现 STDIO和SSE MCP Server1.新建Spring Boot项目2.a

基于Python打造一个智能单词管理神器

《基于Python打造一个智能单词管理神器》这篇文章主要为大家详细介绍了如何使用Python打造一个智能单词管理神器,从查询到导出的一站式解决,感兴趣的小伙伴可以跟随小编一起学习一下... 目录1. 项目概述:为什么需要这个工具2. 环境搭建与快速入门2.1 环境要求2.2 首次运行配置3. 核心功能使用指

Python实现word文档内容智能提取以及合成

《Python实现word文档内容智能提取以及合成》这篇文章主要为大家详细介绍了如何使用Python实现从10个左右的docx文档中抽取内容,再调整语言风格后生成新的文档,感兴趣的小伙伴可以了解一下... 目录核心思路技术路径实现步骤阶段一:准备工作阶段二:内容提取 (python 脚本)阶段三:语言风格调