[论文解读] Habitat 3.0: A Co-Habitat for Humans, Avatars and Robots
Habitat 3.0 引入一个快速、真实感强的模拟器,支持人形化身与机器人在类似家居的环境中进行协作的人–机器人任务,同时提供一个人类在环评估工具和两个任务(Social Navigation 与 Social Rearrangement)以及多个基线。
We present Habitat 3.0: a simulation platform for studying collaborative human-robot tasks in home environments. Habitat 3.0 offers contributions across three dimensions: (1) Accurate humanoid simulation: addressing challenges in modeling complex deformable bodies and diversity in appearance and motion, all while ensuring high simulation speed. (2) Human-in-the-loop infrastructure: enabling real human interaction with simulated robots via mouse/keyboard or a VR interface, facilitating evaluation of robot policies with human input. (3) Collaborative tasks: studying two collaborative tasks, Social Navigation and Social Rearrangement. Social Navigation investigates a robot's ability to locate and follow humanoid avatars in unseen environments, whereas Social Rearrangement addresses collaboration between a humanoid and robot while rearranging a scene. These contributions allow us to study end-to-end learned and heuristic baselines for human-robot collaboration in-depth, as well as evaluate them with humans in the loop. Our experiments demonstrate that learned robot policies lead to efficient task completion when collaborating with unseen humanoid agents and human partners that might exhibit behaviors that the robot has not seen before. Additionally, we observe emergent behaviors during collaborative task execution, such as the robot yielding space when obstructing a humanoid agent, thereby allowing the effective completion of the task by the humanoid agent. Furthermore, our experiments using the human-in-the-loop tool demonstrate that our automated evaluation with humanoids can provide an indication of the relative ordering of different policies when evaluated with real human collaborators. Habitat 3.0 unlocks interesting new features in simulators for Embodied AI, and we hope it paves the way for a new frontier of embodied human-AI interaction capabilities.
研究动机与目标
- 通过在真实家庭环境中模拟协作型的人–机器人任务,激发并支持社会化具身 AI 的研究。
- 提供快速、多样的人形外观与运动模型,适用于学习驱动的智能体。
- 提供一个人类在环的评估界面,用真实人类合作者来评估机器人策略。
- 引入两个社会任务(Social Navigation 与 Social Rearrangement),并给出标准化基线以进行基准测试。
- 展示在人与机器人协作中的普遍化与涌现的协作行为。
提出的方法
- 人形外观与运动:采用基于 SMPL-X 的物理学与渲染分离的双重表示,具关节骨架用于物理,蒙皮网格用于渲染;缓存多种身体形状以加速加载与姿态生成。
- 人形运动:分层策略,将低级技能(导航、拾取/放置)与路径规划与动作片段(步行循环)组合,以实现长距离行为。
- 人类在环(HITL)工具:客户端–服务器架构,通过鼠标/键盘或 VR 控制人形,具记录、回放和多视角渲染用于评估与数据收集。
- 机器人与人形协作:研究两个任务——Social Navigation(机器人在安全距离内找到并跟随人形)与 Social Rearrangement(机器人与人形共同重新摆放物体)——使用学习型和启发式基线。
- 基线评估:在未见场景和未见合作者的情况下,比较端到端强化学习、启发式规划和基于群体的学习方法,以衡量普遍化与涌现协作。
实验结果
研究问题
- RQ1我们如何建模快速、多样且真实的人形化身,以便在类家居环境中训练具身 AI 代理?
- RQ2人类在环评估对使用真实人类伙伴估计策略性能有何影响?
- RQ3在未见环境和未见合作者的情况下,学习型与启发式策略在社会导航与社会改组任务中的表现如何?
- RQ4涌现的协作行为(如让出空间、任务分工)是否能提高人机协作的效率和安全性?
主要发现
| 方法 | S↑ | SPS↑ | F↑ | CR↓ |
|---|---|---|---|---|
| Heuristic Expert | 1.00 | 0.97 | 0.51 | 0.52 |
| End-to-end RL | 0.97 ±0.00 | 0.65 ±0.00 | 0.44 ±0.01 | 0.51 ±0.03 |
| - humanoid GPS | 0.76 ±0.02 | 0.34 ±0.01 | 0.29 ±0.01 | 0.48 ±0.03 |
| - humanoid detector | 0.98 ±0.00 | 0.68 ±0.00 | 0.37 ±0.01 | 0.64 ±0.05 |
| - arm depth | 0.94 ±0.01 | 0.54 ±0.01 | 0.19 ±0.01 | 0.71 ±0.08 |
| - arm depth + arm RGB | 0.96 ±0.00 | 0.61 ±0.01 | 0.38 ±0.02 | 0.55 ±0.04 |
- 端到端强化学习策略可以学习到像让出空间、调整运动以跟随人形的协作行为,在社会导航任务中实现有竞争力的成功率和碰撞指标。
- 端到端 RL 与感知消融实验显示 GPS、深度传感器和探测器传感器的重要性各不相同,突显在定位人形前后输入的作用。
- 在 Social Rearrangement 中,使用多名合作者的群体学习提高了对未见伙伴的泛化能力,Plan-Pop 变体表现出鲁棒的零-shot 效果。
- 人类在环评估表明,基于 HITL 的自动评估与真实人类测试时的相对策略排名一致,有助于实现可扩展的基准测试。
- Habitat 3.0 实现了很高的帧率(例如在单GPU上对机器人–人形设置,在16个环境中的FPS达到1191)并通过缓存与离线装配/加载策略保持了视觉保真度。
- 一个两层模块化策略(高层技能选择 + 低层技能)在不同场景和伙伴之间支持高效的机器人与人形协同。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。