QUICK REVIEW

[论文解读] HRL4IN: Hierarchical Reinforcement Learning for Interactive Navigation with Mobile Manipulators

Chengshu Li, Fei Xia|arXiv (Cornell University)|Oct 24, 2019

Reinforcement Learning in Robotics被引用 26

一句话总结

HRL4IN 提出了一种新颖的分层强化学习框架，用于移动操作机器人，以解决需要导航与操作协同的长时程交互导航任务。该框架通过高层策略在异质状态空间（如基座位置或末端执行器位姿）中设定子目标，并为每个阶段选择最优的本体部件（基座、机械臂或两者兼用），在二维网格世界和三维物理环境中的任务成功率与能效方面，显著优于平坦的PPO和HAC基线方法。

ABSTRACT

Most common navigation tasks in human environments require auxiliary arm interactions, e.g. opening doors, pressing buttons and pushing obstacles away. This type of navigation tasks, which we call Interactive Navigation, requires the use of mobile manipulators: mobile bases with manipulation capabilities. Interactive Navigation tasks are usually long-horizon and composed of heterogeneous phases of pure navigation, pure manipulation, and their combination. Using the wrong part of the embodiment is inefficient and hinders progress. We propose HRL4IN, a novel Hierarchical RL architecture for Interactive Navigation tasks. HRL4IN exploits the exploration benefits of HRL over flat RL for long-horizon tasks thanks to temporally extended commitments towards subgoals. Different from other HRL solutions, HRL4IN handles the heterogeneous nature of the Interactive Navigation task by creating subgoals in different spaces in different phases of the task. Moreover, HRL4IN selects different parts of the embodiment to use for each phase, improving energy efficiency. We evaluate HRL4IN against flat PPO and HAC, a state-of-the-art HRL algorithm, on Interactive Navigation in two environments - a 2D grid-world environment and a 3D environment with physics simulation. We show that HRL4IN significantly outperforms its baselines in terms of task performance and energy efficiency. More information is available at https://sites.google.com/view/hrl4in.

研究动机与目标

为解决在人类环境中需要协调基座与机械臂动作的长时程交互导航任务挑战。
通过在不同状态空间中引入时序扩展的子目标，实现分层探索，提升样本效率与任务成功率。
通过在任务不同阶段动态选择使用机器人本体的哪些部分（基座、机械臂或两者），优化能效。
开发一种深度强化学习方法，从零开始学习子目标与本体选择策略，无需人工设计子目标。
在模拟的二维与三维环境中，证明其性能与能效优势显著优于平坦PPO与最先进的HAC方法。

提出的方法

高层策略根据任务当前阶段，选择在不同空间（如基座位置或末端执行器位姿）中设定子目标。
高层策略还选择用于实现每个子目标的本体部件（仅基座、仅机械臂，或基座与机械臂同时使用）。
低层策略使用选定的本体执行动作以达成指定子目标，策略在连续控制设置中通过PPO进行训练。
该框架采用多组件奖励函数，包含进度、成功、碰撞避免与能效等项，以引导学习过程。
子目标并非预定义，而是由高层策略端到端学习得到，从而实现自适应且高效的探索。
该架构通过选项（options）支持时间抽象，使智能体能够对子目标在长时间跨度内保持承诺。

实验结果

研究问题

RQ1分层强化学习框架能否有效学习将交互导航任务分解为涉及不同状态空间中导航与操作的异质子任务？
RQ2在任务不同阶段动态选择本体部件（基座、机械臂或两者）是否能提升任务表现与能效？
RQ3在长时程交互导航任务中，HRL4IN与平坦PPO及HAC相比，在成功率、最终奖励与能效节省方面表现如何？
RQ4奖励函数中各组件（进度、碰撞、成功、能效）对策略学习与性能的贡献分别是什么？
RQ5高层策略能否在无需人工指定子目标的情况下，学习到有意义的子目标与本体选择策略？

主要发现

在Interactive Gibson Environment中，HRL4IN实现了0.963的成功率与64.3的最终平均奖励，显著优于平坦PPO与HAC基线。
消融实验表明，若移除能效奖励项，智能体将无法学习到有意义的本体选择策略，导致能效节省从0.453降至0.235。
若不包含碰撞避免奖励，智能体的成功率降至0.0，表明碰撞惩罚对安全导航至关重要。
若缺少进度奖励，成功率为零，表明进度塑造对长时程探索至关重要。
本体选择器对能效至关重要：禁用后，能效节省降至0.0，而成功率与奖励保持相近。
可视化结果证实，高层策略学会了在多数区域仅使用基座，靠近门时切换为基座+机械臂以完成抓取，门打开后又恢复为仅基座，展示了有效的本体感知规划能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。