​​给【AI硬件】创业者的论文、开源项目和产品整理

2024-06-19 21:52

本文主要是介绍​​给【AI硬件】创业者的论文、开源项目和产品整理,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

一、AI 硬件精选论文

《DrEureka: Language Model Guided Sim-To-Real Transfer》

瑜伽球上遛「狗」这项研究由宾夕法尼亚大学、 NVIDIA 、得克萨斯大学奥斯汀分校的研究者联合打造,并且完全开源。他们提出了 DrEureka(域随机化 Eureka),这是一种利用 LLM 实现奖励设计和域随机化参数配置的新型算法,可同时实现模拟到现实的迁移。该研究展示了 DrEureka 算法能够解决新颖的机器人任务,例如四足机器人平衡和在瑜伽球上行走,而无需迭代手动设计。

https://eureka-research.github.io/dr-eureka/assets/dreureka-paper.pdf

《Multi-Modal Data-Efficient 3D Scene Understanding for Autonomous Driving》

该论文介绍了一个进化框架 LaserMix++,整合了来自不同 LiDAR 扫描的激光束操作,并结合了 LiDAR- 相机对应关系,进一步辅助数据有效学习,通过整合多模态来增强 3D 场景一致性正则化,推进自动驾驶中的 3D 场景理解。

http://arxiv.org/abs/2405.05258v1

《Evaluating Real-World Robot Manipulation Policies in Simulation》

机器人领域在通用机器人操作策略方面取得了重要进展。然而,对这些策略进行真实世界的评估不可扩展,并面临再现性挑战。同时随着策略扩展能执行的任务范围扩大,这些挑战可能会加剧。文章指出真实与模拟环境之间的控制和视觉差距是可靠模拟评估的关键挑战,并提出了一些方法来减轻这些差距,而无需制作真实环境的完整数字孪生体。

http://arxiv.org/abs/2405.05941v1

《Octo: An Open-Source Generalist Robot Policy》

加州大学伯克利分校、斯坦福大学、卡内基梅隆大学和谷歌 DeepMind 的 18 位研究者组成的 Octo Model Team 发布了他们的开创性研究成果:Octo 模型。能让 GRP 更轻松地应对下游机器人应用的接口多样化问题。

https://arxiv.org/pdf/2405.12213

《iVideoGPT: Interactive VideoGPTs are Scalable World Models》

清华、华为等提出 iVideoGPT ,一个可扩展的自动回归变换器框架,通过将多模态信号(视觉观察、动作和奖励)整合成序列令牌,实现 agents 的交互式体验,并利用其可扩展架构,预训练 iVideoGPT 在数百万人类和机器人操纵轨迹上,使其适应各种下游任务。

https://arxiv.org/pdf/2405.15223

《YOLOv10: Real-Time End-to-End Object Detection》

YOLOv10 被认为是计算机视觉领域的突破性框架,该论文中在从后续处理和模型架构两个方面进一步提高 YOLO 系列模型的性能-效率边。

https://arxiv.org/pdf/2405.14458

《面向开放世界感知、具有互补通路的视觉芯片》

清华「天眸芯」是全球首款类脑互补视觉芯片,标志着国内芯片领域在类脑计算和类脑感知两个重要方向上均已取得基础性突破。

https://www.nature.com/articles/s41586-024-07358-4

《PowerInfer-2: Fast Large Language Model Inference on a Smartphone》

上交大发布 LLM 手机推理框架 PowerInfer-2,提速 29 倍,该论文针对手机模型遇到的挑战提出了新的解决方案。

https://arxiv.org/abs/2406.06282

《OpenVLA: An Open-Source Vision-Language-Action Model》

本文介绍了 OpenVLA,一个开源的视觉语言行动(VLA)模型,该模型通过大规模互联网视觉语言数据和多样化的机器人演示进行预训练,实现了对视觉运动控制的强大性能,并可通过微调获得鲁棒且泛化的策略,解决了现有 VLA 模型封闭和不可访问的问题,并提出了有效的 VLA 微调新方法。

http://arxiv.org/abs/2406.09246v1

《李飞飞最新 DataBricks 峰会演讲》

李飞飞教授介绍了其空间智能领域团队的系列研究。该团队通过结合视觉、语言和空间智能,开发出了一系列先进的算法,使机器人能够理解三维空间并执行复杂任务。

https://mp.weixin.qq.com/s/zs31ld6bZUzuqmz28KZLPQ

《Pandora: Towards General World Model with Natural Language Actions and Video States》

Pandora 通过大规模预训练和指导调整实现了领域通用性、视频一致性和可控性。展示了 Pandora 在不同领域(室内/室外、自然/城市、人类/机器人、2D/3D 等)的广泛输出。

http://arxiv.org/abs/2406.09455v1

二、AI 硬件开源项目

OpenGlass

OpenGlass 旨在将普通眼镜改造成具有人工智能功能的智能眼镜。

https://github.com/BasedHardware/OpenGlass

Barkour Robot

Barkour Robot 是由 Google DeepMind 开发的一系列敏捷四足机器人,为各种机器学习和机器人研究提供支持。

https://github.com/google-deepmind/barkour_robot

Octo

Octo,一个基于 80 万条来自 Open X-Embodiment 数据集的轨迹进行训练的大型 Transformer 策略,这是迄今为止最大的机器人操作数据集。

http://arxiv.org/abs/2405.12213v1

InternGPT

一种基于指向语言驱动的视觉交互系统,允许用户使用指向设备通过点击、拖动和绘制与 ChatGPT 进行互动。

https://github.com/OpenGVLab/InternGPT/blob/main/README_CN.md

三、AI 硬件产品案例

AutoLife Robotics (奇绩校友产品)

AutoLife Robotics 致力于规模化推广低成本通用半人形 AI 机器人,首先解决零售环境下的重复劳动,例如替换大型连锁咖啡店的重复性劳动、服装店衣物整理工作,或在免税店部署智能的机器人销售助理。

Rabbit-R1(本周潜空间嘉宾)

是由 Rabbit Tech 推出的手持 AI 设备,设计为个人的日常数字助理,主要通过自然语言交互进行操作。这款设备的核心特点是它的操作系统 Rabbit OS 和底层的“ Large Action Model (LAM) ”,这使得它不仅能执行简单任务,还能学习并执行更复杂的数字任务。

https://www.rabbit.tech/rabbit-r1

特斯拉 Optimus 人形机器人

二代 Optimus 在机器人的 FSD 计算机上实时运行,而仅仅依靠 2D 摄像头、手部触觉和力传感器。Optimus 利用它的腿保持平衡,同时网络驱动着整个上半身。

https://mp.weixin.qq.com/s/P5pJFKGxxvi-jBuPCmk-RQ

大脑—脊柱接口小装置

瑞士的研究人员利用 AI 来读取用户意图,然后转化成电信号,再和肌肉的运动相匹配,在用户大脑和脊髓之间建立了一座「数字桥梁」。

https://mp.weixin.qq.com/s/cxKQAO-2-NhCwSB69dccVQ

Mi-GPT

MiGPT 是一个将小爱音箱与 ChatGPT 等大语言模型完美融合的产品,致力于打造一个更智能、更懂你的智能家居助手。

https://github.com/idootop/mi-gpt

苹果智能

加持 GPT-4o,全家桶都上生成式 AI ,Siri 脱胎换骨。

https://mp.weixin.qq.com/s/sCD2DKx9-rroCoTh1bSvBQ

AI Pin

Ai Pin 是一款集成了 AI 交互功能的无屏幕激光投影穿戴设备,重量为 34.2 g,外形类似方形手表表盘,可以轻松别在衣服上。它采用无屏幕设计,通过激光投影技术将界面投射至手掌,结合手势控制能力,来实现无屏幕交互体验。

https://humane.com/

这篇关于​​给【AI硬件】创业者的论文、开源项目和产品整理的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/1076253

相关文章

Spring AI使用tool Calling和MCP的示例详解

《SpringAI使用toolCalling和MCP的示例详解》SpringAI1.0.0.M6引入ToolCalling与MCP协议,提升AI与工具交互的扩展性与标准化,支持信息检索、行动执行等... 目录深入探索 Spring AI聊天接口示例Function CallingMCPSTDIOSSE结束语

在IntelliJ IDEA中高效运行与调试Spring Boot项目的实战步骤

《在IntelliJIDEA中高效运行与调试SpringBoot项目的实战步骤》本章详解SpringBoot项目导入IntelliJIDEA的流程,教授运行与调试技巧,包括断点设置与变量查看,奠定... 目录引言:为良驹配上好鞍一、为何选择IntelliJ IDEA?二、实战:导入并运行你的第一个项目步骤1

Python自动化批量重命名与整理文件系统

《Python自动化批量重命名与整理文件系统》这篇文章主要为大家详细介绍了如何使用Python实现一个强大的文件批量重命名与整理工具,帮助开发者自动化这一繁琐过程,有需要的小伙伴可以了解下... 目录简介环境准备项目功能概述代码详细解析1. 导入必要的库2. 配置参数设置3. 创建日志系统4. 安全文件名处

三频BE12000国补到手2549元! ROG 魔盒Pro WIFI7电竞AI路由器上架

《三频BE12000国补到手2549元!ROG魔盒ProWIFI7电竞AI路由器上架》近日,华硕带来了ROG魔盒ProWIFI7电竞AI路由器(ROGSTRIXGR7Pro),目前新... 华硕推出了ROG 魔盒Pro WIFI7电竞AI路由器(ROG STRIX GR7 Phttp://www.cppcn

MySQL 迁移至 Doris 最佳实践方案(最新整理)

《MySQL迁移至Doris最佳实践方案(最新整理)》本文将深入剖析三种经过实践验证的MySQL迁移至Doris的最佳方案,涵盖全量迁移、增量同步、混合迁移以及基于CDC(ChangeData... 目录一、China编程JDBC Catalog 联邦查询方案(适合跨库实时查询)1. 方案概述2. 环境要求3.

SpringSecurity整合redission序列化问题小结(最新整理)

《SpringSecurity整合redission序列化问题小结(最新整理)》文章详解SpringSecurity整合Redisson时的序列化问题,指出需排除官方Jackson依赖,通过自定义反序... 目录1. 前言2. Redission配置2.1 RedissonProperties2.2 Red

IntelliJ IDEA2025创建SpringBoot项目的实现步骤

《IntelliJIDEA2025创建SpringBoot项目的实现步骤》本文主要介绍了IntelliJIDEA2025创建SpringBoot项目的实现步骤,文中通过示例代码介绍的非常详细,对大家... 目录一、创建 Spring Boot 项目1. 新建项目2. 基础配置3. 选择依赖4. 生成项目5.

MySQL 多列 IN 查询之语法、性能与实战技巧(最新整理)

《MySQL多列IN查询之语法、性能与实战技巧(最新整理)》本文详解MySQL多列IN查询,对比传统OR写法,强调其简洁高效,适合批量匹配复合键,通过联合索引、分批次优化提升性能,兼容多种数据库... 目录一、基础语法:多列 IN 的两种写法1. 直接值列表2. 子查询二、对比传统 OR 的写法三、性能分析

Javaee多线程之进程和线程之间的区别和联系(最新整理)

《Javaee多线程之进程和线程之间的区别和联系(最新整理)》进程是资源分配单位,线程是调度执行单位,共享资源更高效,创建线程五种方式:继承Thread、Runnable接口、匿名类、lambda,r... 目录进程和线程进程线程进程和线程的区别创建线程的五种写法继承Thread,重写run实现Runnab

Spring IoC 容器的使用详解(最新整理)

《SpringIoC容器的使用详解(最新整理)》文章介绍了Spring框架中的应用分层思想与IoC容器原理,通过分层解耦业务逻辑、数据访问等模块,IoC容器利用@Component注解管理Bean... 目录1. 应用分层2. IoC 的介绍3. IoC 容器的使用3.1. bean 的存储3.2. 方法注