[论文解读] Learning Affordance Landscapes for Interaction Exploration in 3D Environments
本文提出了一种强化学习框架,使具身智能体能够通过交互式探索自主探索3D环境并发现物体的可操作性。通过结合探索策略与在线训练的可操作性分割模型,智能体学会识别可操作的物体和动作,在稀疏奖励且无示范的情况下显著提升下游任务性能。
Embodied agents operating in human spaces must be able to master how their environment works: what objects can the agent use, and how can it use them? We introduce a reinforcement learning approach for exploration for interaction, whereby an embodied agent autonomously discovers the affordance landscape of a new unmapped 3D environment (such as an unfamiliar kitchen). Given an egocentric RGB-D camera and a high-level action space, the agent is rewarded for maximizing successful interactions while simultaneously training an image-based affordance segmentation model. The former yields a policy for acting efficiently in new environments to prepare for downstream interaction tasks, while the latter yields a convolutional neural network that maps image regions to the likelihood they permit each action, densifying the rewards for exploration. We demonstrate our idea with AI2-iTHOR. The results show agents can learn how to use new home environments intelligently and that it prepares them to rapidly address various downstream tasks like "find a knife and put it in the drawer." Project page: http://vision.cs.utexas.edu/projects/interaction-exploration/
研究动机与目标
- 使具身智能体能够自主发现新型、未映射的3D环境中物体的可操作性图谱,且无需事先了解物体或动作。
- 通过交互式探索预训练智能体,解决具身人工智能中稀疏奖励和复杂多步交互任务的挑战。
- 开发一种联合学习框架,使探索策略与可操作性分割模型共同进化,以提升样本效率和泛化能力。
- 证明基于交互的探索在为下游交互任务做准备方面优于仅导航的探索。
提出的方法
- 智能体使用第一视角RGB-D摄像头和包含导航(例如,转向、移动)与操作动作(例如,打开、切换、拾取)的高层动作空间。
- 使用从成功交互中衍生出的密集奖励信号,对深度强化学习智能体进行训练,以促进对所有物体和动作的快速发现。
- 利用部分观测到的交互数据在线训练可操作性分割模型,以预测每个图像区域的动作成功概率。
- 探索策略与可操作性模型联合优化,其中可操作性模型提供密集监督,从而提升探索效率。
- 该方法利用AI2-iTHOR模拟器在具有复杂物体交互的现实3D家庭环境中评估性能。
- 下游任务通过使用稀疏奖励的近端策略优化(PPO)进行微调,将预训练的探索策略作为先验。
实验结果
研究问题
- RQ1具身智能体能否通过自监督探索在未见过的3D环境中自主发现所有可操作物体和有效动作?
- RQ2在覆盖范围、交互发现和下游任务性能方面,基于交互的探索与仅导航的探索相比表现如何?
- RQ3从交互数据中训练的可操作性分割模型在多步复杂交互任务中能在多大程度上提升策略学习?
- RQ4在稀疏奖励的下游任务中,基于交互探索的预训练是否能减少达到高成功率所需的episode数量?
主要发现
- 所提出的IntExp智能体发现的交互数量比最佳基线多1.33倍,且在42%更少的时间步内达到其性能水平。
- 在Retrieve、Store、Wash和Heat等下游任务中,IntExp智能体的成功率比Curiosity和Novelty等基线高出最多16%。
- IntExp智能体仅用500,000帧微调即可在多步任务(如Retrieve成功率27.25%,Store成功率27.00%)中达到高成功率,优于依赖好奇心或物体覆盖度的方法。
- 从交互数据中训练的可操作性模型在动作预测(如打开、切换)上的平均精度(mAP)达到26.5,显著优于随机和基线方法。
- 该方法通过让智能体从自生成的交互数据中学习有效的交互策略,减少了对人工示范的需求。
- 可操作性预测中的失败案例(如窗帘、锅)归因于噪声或不完整的交互数据,凸显了提升训练数据质量的必要性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。