[论文解读] Hierarchical Foresight: Self-Supervised Learning of Long-Horizon Tasks via Visual Subgoal Generation
该论文提出分层视觉前瞻(HVF),一种自监督框架,通过生成语义上有意义的视觉子目标来分解长时域视觉基操作任务,实现通过潜在空间优化的高效规划。HVF在仿真环境中相较于基线方法性能最高提升200%,并在无需奖励或示范的情况下泛化至真实世界杂乱环境。
Video prediction models combined with planning algorithms have shown promise in enabling robots to learn to perform many vision-based tasks through only self-supervision, reaching novel goals in cluttered scenes with unseen objects. However, due to the compounding uncertainty in long horizon video prediction and poor scalability of sampling-based planning optimizers, one significant limitation of these approaches is the ability to plan over long horizons to reach distant goals. To that end, we propose a framework for subgoal generation and planning, hierarchical visual foresight (HVF), which generates subgoal images conditioned on a goal image, and uses them for planning. The subgoal images are directly optimized to decompose the task into easy to plan segments, and as a result, we observe that the method naturally identifies semantically meaningful states as subgoals. Across three out of four simulated vision-based manipulation tasks, we find that our method achieves nearly a 200% performance improvement over planning without subgoals and model-free RL approaches. Further, our experiments illustrate that our approach extends to real, cluttered visual scenes. Project page: https://sites.google.com/stanford.edu/hvf
研究动机与目标
- 解决在仅具备自监督条件下,于杂乱、未见过的环境中进行长时域视觉操作的挑战。
- 克服长时域视频预测与规划中累积的不确定性及稀疏奖励信号问题。
- 使机器人在无需示范或密集奖励的情况下,泛化至新物体和新目标。
- 通过潜在空间优化自动发现语义上有意义的子目标。
- 通过将长时域任务分解为短时域子段,提升视觉任务中的规划效率与成功率。
提出的方法
- 该方法使用变分自编码器(VAE)将视觉观测嵌入低维潜在空间,以实现高效优化。
- 在VAE潜在空间中优化子目标,以最小化各子段间最大规划成本,确保鲁棒性。
- 采用分层规划策略,利用视觉模型预测控制(MPC)依次从初始状态规划至子目标,再从子目标规划至下一子目标。
- 子目标生成为自监督:其优化目标为低期望规划成本,无需奖励或示范。
- 该框架将子目标生成条件化于最终目标图像,从而实现对新任务和新物体的零样本泛化。
- 该方法利用生成模型探索可能的未来状态,并将语义上有意义的中间状态识别为子目标。
实验结果
研究问题
- RQ1在稀疏奖励信号和高不确定性条件下,子目标生成能否提升长时域视觉规划性能?
- RQ2在视觉空间中进行自监督子目标发现,能否带来对新物体和新目标更好的泛化能力?
- RQ3与直接在像素空间规划相比,在VAE潜在空间中优化子目标是否能提升规划效率与成功率?
- RQ4子目标数量如何影响性能?复杂性与成功率之间的最优权衡是什么?
- RQ5该框架能否在无需微调的情况下泛化至真实世界杂乱视觉环境?
主要发现
- 在模拟迷宫导航任务中,HVF使用一个子目标时成功率达到47%,而无子目标时为33%,相对提升42%。
- 在具有挑战性的桌面操作环境中,HVF在绝对性能上至少优于无模型强化学习和最先进的子目标方法20%。
- 使用两个子目标时,HVF在迷宫任务中达到54%的成功率,但当子目标数量达到五个或更多时,性能显著下降,原因在于搜索复杂性增加。
- 以各子段间最大成本作为优化目标优于最小化平均成本,表明对异常值的鲁棒性至关重要。
- 即使每轮迭代使用1000次MPC采样,HVF使用一个子目标仍优于无子目标的标准视觉前瞻方法,表明子目标的优势并非仅源于采样。
- 该方法在真实机器人操作数据上成功生成了现实且语义上合理的子目标,证明了其在真实世界中的适用性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。