具身智能是香饽饽？两篇总述看清根底模型+机器人开展途径

发布时间：2024-03-22 21:02:38 来源：下载雷火电竞亚洲先驱

专题解读事情：12 月 13 日和 14 日，两组研讨团队接连在 arxiv 发布了以根底模型...

产品介绍

专题解读事情：12 月 13 日和 14 日，两组研讨团队接连在 arxiv 发布了以根底模型+机器人主题的总述论文，评论根底模型在机器人研讨范畴的开展状况和未来应战。两篇论文均有谷歌 DeepMind 成员参加。

1、两篇总述文章均梳理了根底模型（如 LLM、VLM）在机器人范畴的运用状况，企图了解根底模型能怎样协助或缓解机器人范畴的中心应战。

2、CMU 与谷歌 DeepMind 领导的研讨团队将「用于机器人的根底模型」分为两种，包含：

① 机器人用的根底模型（Foundation Model Used in Robotics）：用于机器人的现有的（首要）视觉和言语模型，首要是经过零样本和上下文学习；

② 机器人根底模型（Robotics Foundation Models，RFMs）：运用机器人生成的数据专门开发和运用机器人根底模型，以处理机器人使命。

3、两篇文章均在未来要重视的应战中侧重评论了数据稀缺、泛化才能约束这两个问题，并在文中别离对实时性能及安全性等其他问题进行了不同程度的评论。

4、CMU 与谷歌 DeepMind 领导的作业在除了总结用于机器人的根底模型的相关论文中的办法，还对这些论文的试验效果进行了元剖析（meta-analysis），得到了以下发现：

① 研讨社区对机器人操作使命（Manipulation）的重视存在不平衡

④ 现有作业的操控频率太低（15Hz），无法布置在实在机器人中（一般要 100Hz）

⑤ 现在缺少一致的测验基准（Metrics）和测验渠道（Simulation or Hardware），使得比照变得很困难。

图：可经过根底模型处理的机器人技能应战分类法。研讨者在第二层列出了五大应战，以及每项应战的部分要害词。

① 机器人体系往往难以精确地感知和了解其环境。它们也没有才能将在一个使命上的练习效果泛化到另一个使命，这会促进约束它们在实在国际中的实用性。

② 因为机器人硬件不同，将模型搬迁用于不同形状的机器人也很困难。经过将根底模型用于机器人，能够部分地处理泛化问题。而在不同机器人形状上泛化这样更进一步的问题还有待回答。

① 人们现已测验从实际国际搜集大规模数据集，包含无人驾驶、机器人操作轨道等。但人类搜集数据的本钱很高，大规模搜集数据还有操作杂乱，安全危险危险，数据量缺乏等一系列问题。

② 许多作业测验了在仿照环境中生成组成数据，但仍存在约束性，尤其是在物体的多样性方面，这使得所学到的技能难以直接用于实在国际状况。

③ 一种颇具潜力的办法是协作式数据搜集，行将不同试验室环境和机器人类型的数据搜集到一同。可是，该团队深度研讨了 Open-X Embodiment Dataset，发现在数据类型可用性方面仍存在约束性。

① 以往依据学习的办法（如仿照学习和强化学习）是以端到端的办法练习战略，也便是直接依据感官输入获取操控输出，这样能防止构建和运用模型。

② 这些办法能部分处理依靠清晰模型的问题，但它们往往难以泛化用于不同的环境和使命。

③ 上述状况引出了两个问题：（1）怎样学习能很好泛化的与模型无关的战略？（2）怎样学习好的国际模型，以便运用经典的依据模型的办法？

① 练习通用型智能体的一大要害应战是了解使命标准并将其根植于机器人对国际的当时了解中。一般而言，使命标准由用户更好的供给，但用户只能有限地了解机器人的认知和物理才能的约束性。

根底模型+机器人有哪些值得评论的未来研讨方向?... 具身智能与传统 Robotics 有何不同?... 通用 Embodied Agent 又有哪些新的机会与技能应战？...检查完好解读请前往「机器之心PRO」业界通讯 · 2023年度#Week 52

两篇总述别离作者都有谁？两篇总述对同一主题的评论有何异同？什么是 RFM？两篇总述别离重视哪些瓶颈和未来研讨方向？...

苹果提出的经过在闪存中存储模型参数来加快大模型推理，有哪些共同之处？现阶段，LLM 推理加快办法都有哪些？...

↓↓↓ 重视「机器之心 PRO 会员」服务号，点击菜单栏「收件箱」检查往期通讯。