Skip to main content
QUICK REVIEW

[论文解读] Sparse Graphical Memory for Robust Planning

Scott Emmons, Ajay N. Jain|arXiv (Cornell University)|Mar 13, 2020
Human Pose and Action Recognition被引用 9
一句话总结

本文提出了一种新型数据结构——稀疏图形记忆(SGM),通过双向一致性目标学习一致的、目标条件化的状态抽象,实现了鲁棒的长时程视觉规划。SGM 将冗余状态在目标和起始状态角色中进行合并,提升了规划效率,并在稀疏奖励视觉导航任务中达到了最先进性能。

ABSTRACT

To operate effectively in the real world, agents should be able to act from high-dimensional raw sensory input such as images and achieve diverse goals across long time-horizons. Current deep reinforcement and imitation learning methods can learn directly from high-dimensional inputs but do not scale well to long-horizon tasks. In contrast, classical graphical methods like A* search are able to solve long-horizon tasks, but assume that the state space is abstracted away from raw sensory input. Recent works have attempted to combine the strengths of deep learning and classical planning; however, dominant methods in this domain are still quite brittle and scale poorly with the size of the environment. We introduce Sparse Graphical Memory (SGM), a new data structure that stores states and feasible transitions in a sparse memory. SGM aggregates states according to a novel two-way consistency objective, adapting classic state aggregation criteria to goal-conditioned RL: two states are redundant when they are interchangeable both as goals and as starting states. Theoretically, we prove that merging nodes according to two-way consistency leads to an increase in shortest path lengths that scales only linearly with the merging threshold. Experimentally, we show that SGM significantly outperforms current state of the art methods on long horizon, sparse-reward visual navigation tasks. Project video and code are available at this https URL

研究动机与目标

  • 为通过结合深度学习与经典规划来弥合长时程视觉强化学习中的可扩展性与鲁棒性差距。
  • 使智能体能够从高维原始感官输入(如图像)出发,在长时间跨度内进行有效规划。
  • 克服现有将深度学习与经典规划结合的方法所存在的脆弱性和可扩展性差的问题。
  • 开发一种在作为目标和作为起始状态时均保持一致的状态抽象机制,以提升规划效率。
  • 在当前最先进方法的基础上,实现对稀疏奖励、长时程视觉导航任务的更优性能表现。

提出的方法

  • SGM 引入了一种稀疏记忆结构,以类似图的形式存储状态和可行的转移。
  • 采用双向一致性目标识别并合并冗余状态——即在作为目标和起始状态时均可互换的状态。
  • 将经典的状态聚合准则适配至目标条件化的强化学习设置中。
  • 理论上证明,基于双向一致性的节点合并仅使最短路径长度随合并阈值线性增长。
  • 该框架利用从原始视觉输入中提取的抽象且一致的状态表示,实现高效的基于图的规划。
  • 该方法与深度学习模型集成,处理原始观测,构建紧凑且可规划的状态图。

实验结果

研究问题

  • RQ1能否设计一种数据结构,利用经典规划原则,从原始视觉输入实现鲁棒的长时程规划?
  • RQ2在目标条件化的强化学习中,如何使状态抽象不仅在作为目标时一致,同时在作为起始状态时也保持一致?
  • RQ3基于双向一致性的状态合并对规划路径长度和最优性有何理论影响?
  • RQ4该方法能否在长时程、稀疏奖励的视觉导航任务中超越现有最先进方法?
  • RQ5该方法在环境规模和复杂性增加时的可扩展性如何?

主要发现

  • SGM 在长时程、稀疏奖励视觉导航任务中显著优于当前最先进方法。
  • 双向一致性目标有效减少了状态冗余,同时保持了规划可行性与路径质量。
  • 理论分析表明,路径长度仅随合并阈值线性增长,确保了可扩展性。
  • 该方法能够从原始视觉输入实现有效规划,弥合了深度学习与经典规划之间的鸿沟。
  • 该框架在具有大规模状态空间和稀疏奖励的环境中表现出鲁棒性与可扩展性。
  • 项目代码与视频已公开,支持可复现性与进一步研究。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。