北京大学刘畅教授：寻找阿拉丁神灯 —— Agent Insights

2024 年英伟达 GTC 大会上，创始人兼 CEO 黄仁勋以人形机器人压轴，并表示构建通用人形机器人的基本模型是今天能在 AI 领域解决的最令人兴奋的问题之一。在具身智能中有一类任务特别富有挑战：零样本物体导航（ZSON），该方法要求 Agent 在未知环境中完成导航。为了解决现有数据集与现实世界情况存在明显差异的问题，开放词汇零距离物体导航在动态环境中的数据集 DOZE 应运而生。让我们与北京大学刘畅教授，和 Agent 一起，寻找阿拉丁神灯。Enjoy

北京大学刘畅教授：寻找阿拉丁神灯 —— Agent Insights插图

《DOZE: A Dataset for Open-Vocabulary Zro-Shot Object Navigation in Dynamic Environments》

北京大学刘畅教授：寻找阿拉丁神灯 —— Agent Insights插图1

解决问题： 过去具身智能机器人强调零样本物体导航（Zero-Shot Object Navigation），需要实现 Agent 在陌生环境中自主定位并接近未见过的物体的能力，然而在零样本物体导航评测过程中缺乏具有动态障碍物、开放词汇（Open-Vocabulary）物体、多样场景的数据集，DOZE 数据集为零样本物体导航提供了一个复杂、动态、开放的高保真世界场景

模型框架： DOZE 仿真环境建立在 ArchitecTHOR（传统静态目标导航数据集）之上并进行改造，团队在此之上利用 Unity 3D（3D开发引擎）制作了人形障碍物在环境中行走，并利用文生 3D 大模型（例如DreamFusion等）生成开放词汇 3D 物体

使用效果： DOZE 评估了四种不同的方法（Random、Frontier、C-L3MVN、C-LGX）在三个级别的 ZSON 导航任务中的表现，这些任务涉及开放词汇目标物体、具有空间属性的目标物体以及具有外观属性的目标物体，结果展示现有的 ZSON 导航方法在包含动态移动障碍物的场景中仍然存在不足，且在搜寻开放词汇目标物体的效果存在较大改进空间

应用方式： 具身智能、文生 3D、XR

北京大学刘畅教授：寻找阿拉丁神灯 —— Agent Insights插图2

评估结果： 四种目标导航方式从第 1 级到第 3 级，所有方法的 SPL（成功率加权路径长度）都持续下降，碰撞率持续上升。由此可见现有 ZSON 方法虽然在传统 ZSON 任务中表现出色，但在包含动态移动障碍物为特征的场景中存在明显不足

北京大学刘畅教授：寻找阿拉丁神灯 —— Agent Insights插图3

绿洲：近期 Figure 01 利用神经网络进行端到端视频数据分析，您如何看待 Figure 01当前技术发展？

刘教授： Figure 01 是将 OpenAI 的智能决策能力放到人形机器人的载体之上，让大家惊艳的是其硬软件及其智能部分的高质量结合。从交互或智能性方面来看也有其他工作能达到类似能力，但能够把智能和具身载体结合得好，尤其是手部操作灵巧、效果如此丝滑的不多。

从视频和公开资料来看，Figure 01 手部操作基本是端到端，通过深度学习神经网络实现，再加上全身控制（Whole Body Control），全身控制应该是用了经典的控制方法来保证身体平衡。视频中展示的双手配合不是特别多。递苹果，移动垃圾筐，将盘子放到架子上，大部分时间是单手操作。其背后的算法在更复杂场景的能力有待评估。

目前还没看到关于 Figure 01 数据集的形式，大概率是基于人的动作采集，不确定是公开数据集还是重新制作的专业数据集。

绿洲：您的研究主要集中在什么领域呢？

刘教授： 总体来说我一直在做机器人的决策和运动规划工作，一方面是基于传统的控制或数值优化方法，另一方面是结合大模型功能，更好的帮助机器人决控。我做完博士后之后在英伟达自动驾驶部门全职做软件开发，主要负责自动驾驶的行为规划，保证车在路上平滑行驶，同时保证安全性、舒适性等。

回到北大之后，我研究方向集中到大规模机器人集群决策和规划，以及具身智能相关的对象目标导航（Object Goal Navigation）应用，方法本身和数据集都做研究。DOZE 就是我们做的一个数据集，我们还做了算法让机器人更好地利用环境语义信息和地图中的关键信息量节点作决策，帮助机器人更好地找到相关物体。

绿洲：能展开说说与具身智能相关的对象目标导航（Object Goal Navigation）么？

刘教授： 对象目标导航是具身智能较早的应用，该任务是指在室内未知环境中，以语言或图片形式告诉机器人想要寻找的物体，譬如说需要找一个红色杯子，机器人根据描述找到具体属性物体。

目前已经有一些数据集可以用于对象目标导航训练和测试。数据集分为两类，一类从真实环境中重构，比如用激光雷达或摄像头进行 3D 扫描后进行数据重建，建好场景，例如 HM3D，Gibson 等。数据重建的场景非常真实，复杂度高，物品种类繁多，缺点是扫描效果还未尽人意，经常会出现中间数据缺失。因此大家很多转向在仿真环境中搭建的纯合成数据集，比较有名的是 RobotTHOR 和 HSSD-200，它们具备了我们需要的基本元素，包括室内环境、常见物体等，但是物品种类相对匮乏。

绿洲：DOZE 数据集解决的问题是什么呢？

刘教授： DOZE 解决了数据集中的物品种类匮乏的问题，加了四类物体到现有场景之中。

第一类是有不同属性的物体。例如一只猫可以处于不同空间位置，在椅子上或桌子下，这种不同语义信息定义的空间概念物体过去很少出现，另外也包含具有不同外观或纹理的同一类物体，譬如一个篮球可以有不同的颜色和花纹等等；

第二类是开放词汇物体。比如阿拉丁神灯，机器人在寻找的过程中首先要去识别物体，并把看到物体和阿拉丁神灯的概念对应上，这既考察机器人本身的定位能力，又考察机器人是否具备开放词汇（Open Vocabulary）物体识别能力；

第三类是移动物体。现实生活中房间里总会有人或物体在运动，现有的数据集都是静态的，现有的目标导航方法也不具备对移动物体进行避障的功能。

此外，我们还加入了提示物体（Hint Objects），例如有一些纸片上写的部分文字信息，能够帮助机器人更快定位到要找的物体，以此考察机器人是否具备语义或文字理解的能力。

绿洲：人形移动障碍物和提示对象数据是怎么做？

刘教授： 我们的仿真环境是基于数据集 ArchitecTHOR 进行改造的，有十个房间，这个数据集基本上是静态的传统的对象目标导航数据集。在此之上我们添加人形障碍物信息，利用 Unity 3D 制作的人形物件，再人为设计动作与运动轨迹，实现环境内的行走。

提示对象中的文字信息则是在 Unity 环境中对白板物体的表面贴图进行编辑，生成带文字的图片放到白板上后放入环境的恰当位置。

在这个过程中，我们还使用大模型用于开放词汇形容的物件生成，对于比较新奇的物体，则使用 DreamFusion（文生3D大模型）生成。目前文生 3D 能力有限，生成的内容需要经过筛选，如果生成的物体无法使用，我们也会去找一些免费的 3D 素材进行补充。

绿洲：DOZE 数据集的优势在哪里？相比过去的数据集，DOZE 在应用空间上有什么不同？

刘教授： DOZE 最大的优势在于其生成物体的多样性。DOZE 中移动障碍物，提示对象，开放词汇生成的物体有不同的属性、外观和纹理。物体的多样性能带来机器人本身更强的对未知物体和动态物体感知和应对能力，也是以往数据集无法很好考察的方向。

数据集中的训练数据永远是有限的，现实中永远有过去数据集中没有出现过的物体，开放词汇生成物体过去在计算机视觉里也是一个比较大的问题，我们希望在目标物体识别的环境理解过程中，解决感知模型的泛化能力。

从应用空间而言，DOZE 和过往的数据集类似，都强调室内环境。但传统算法放到真实环境中能力会有缺失，譬如在真实环境中要找一个带哆啦 A 梦图案的抱枕。已有的数据集上进行训练并不能检测这个算法是否具有开放词汇生成物体识别的能力，会导致在传统数据上训练得非常好的识别算法在真实环境中完全找不到目标，因为它不知道什么是带有哆啦 A 梦的抱枕。但对于在 DOZE 而言，它为这类具有开放词汇能力的导航算法提供了验证平台，在 DOZE 中验证过的导航算法，在实际场景中也能保证其具有未知物体识别能力和更强的动态避障能力。

DOZE 中核心是做感知、决策、交互，在 VR 环境中可以复用的，包括通过视觉能力生成新的物体，定位建图等。

绿洲：您对 Agent 的理解是什么？

刘教授： Agent 概念在 AI 和自动化里不太一样。在 AI 中，早期 Agent 更多是一个智能体，在软件层面帮助人机交互实现决策；在自动化里，Agent 更多是一个集成载体，把智能决策过程与传统机器人领域经验进行结合。再往后， Agent 软件层面智能化需求，包括大模型能力会继续变大，同时硬件层面也有很多空间。

目前具身载体有限，四足机器人和人形双足机器人，都是仿生概念。但人有很多柔性关节或者软组织，和机器人在能力表现上必然会有诸多不同。现在的硬件平台更多还只是关注全刚体组成，因此真正类人或类动物的机器人硬件发展，也是未来很值得关注的方向。

绿洲：您觉得大模型对于 Agent 和具身领域带来最大的变化是什么？

刘教授： 早些年，深度学习带来的变化主要集中在感知或自然语言处理，当年我们认为神经网络是个黑盒，没有安全性保障，可解释性也很差。之后我们发现神经网络最大的特点在于生成式 AI 对决策和控制规划带来了令人惊艳的能力提升。生成式 AI 对于决策规划控制的优势是对复杂、高自由度的机器人规划控制做的比较好，尤其在环境难以建模的情况之下。例如在不平坦的室外路面上行走任务，传统自动化方法需要建模，动力学模型相当复杂，但如果使用深度模型配合强化学习，就能让它在无模型的情况下不断探索环境，学出更优策略。这是我觉得这一波深度学习带来的最大进步。

传统方法能从原理上保障机器人动作模拟到真实环境的差距较小（Sim2Real Gap），但深度学习网络的动作实现效果就不一定那么好了。在决策控制层面，我觉得两条路都值得探索，一是融合神经网络的传统方法，另一种是直接的端到端方法，目前各有优势应用领域。

绿洲：关于合成数据我们听到不同声音，您如何看待合成数据的发展？

刘教授： 合成数据是很有意思的话题，合成数据的同质性可能会导致用大模型训练遇到上限，但至少在具身智能领域，利用合成数据训练大模型进行决策控制这条路径的性能上限还比较高，目前离达到这一上限还有距离。短期内我们更关注数据和真实场景之间的差距如何能缩小。具身智能领域的合成数据集还有很多值得挖掘的地方，这也是为什么我们领域的研究人员开始往数据集中加入操作（Manipulation）的元素，上限肯定会有，合成数据在未来会变得越来越重要。

绿洲：您怎么看人形机器人形态的未来？

刘教授： 人形是重要的形态之一，但不一定是未来发展的唯一方向。人形机器人强大的操控能力可以在居家环境中有很大想象空间，包括之前提到的导航、操控、交互能力。人形加上机械臂如果效果足够好，能够完成的任务就很多了。此外，人形形态能满足人们对于仿人形态的期待，也确实能够拓展能力边界，所以我觉得人形是重要的大方向之一。

当然人形也有局限，譬如载荷有限，运动能力较弱，例如双足在崎岖的路面上稳定性不如四足。因此我觉得在发展人形的同时也不应该放弃其他形态，比如在大载荷需求或者崎岖室外环境中，地面运动的足式已经比较成熟了且比人形具有更大优势。

*马骥同学是该工作主要负责人之一，并参与了该讲稿的校对。

本文来自微信公众号“緑洲资本 Vitalbridge”（ID:Vitalbridge），作者：参赞生命力，36氪经授权发布。

{{userData.name}}已认证

北京大学刘畅教授：寻找阿拉丁神灯 —— Agent Insights

昔日独角兽终止上市，大Panel也没撑起肿瘤基因测序的未来｜焦点分析

一家云厂商，怎么向传统行业卖大模型？ | 最前线