QUICK REVIEW

[論文レビュー] HRL4IN: Hierarchical Reinforcement Learning for Interactive Navigation with Mobile Manipulators

Chengshu Li, Fei Xia|arXiv (Cornell University)|Oct 24, 2019

Reinforcement Learning in Robotics被引用数 26

ひとこと要約

HRL4INは、ナビゲーションと操作を統合する長時間スケールのインタラクティブナビゲーションタスクを解くために、モバイルマニピュレータ向けに新たな階層的強化学習フレームワークを提案する。高レベル方策は、異種の状態空間（例：ベース位置やエンドエフェクタの姿勢）に応じて部分的な目標を設定し、各段階で最適なボディマッチング部分（ベース、アーム、または両方）を選択する。2Dグリッドワールドおよび3D物理環境の両方で、フラットPPOおよびHACベースラインと比較して、タスク成功確率とエネルギー効率の両面で顕著な向上を達成する。

ABSTRACT

Most common navigation tasks in human environments require auxiliary arm interactions, e.g. opening doors, pressing buttons and pushing obstacles away. This type of navigation tasks, which we call Interactive Navigation, requires the use of mobile manipulators: mobile bases with manipulation capabilities. Interactive Navigation tasks are usually long-horizon and composed of heterogeneous phases of pure navigation, pure manipulation, and their combination. Using the wrong part of the embodiment is inefficient and hinders progress. We propose HRL4IN, a novel Hierarchical RL architecture for Interactive Navigation tasks. HRL4IN exploits the exploration benefits of HRL over flat RL for long-horizon tasks thanks to temporally extended commitments towards subgoals. Different from other HRL solutions, HRL4IN handles the heterogeneous nature of the Interactive Navigation task by creating subgoals in different spaces in different phases of the task. Moreover, HRL4IN selects different parts of the embodiment to use for each phase, improving energy efficiency. We evaluate HRL4IN against flat PPO and HAC, a state-of-the-art HRL algorithm, on Interactive Navigation in two environments - a 2D grid-world environment and a 3D environment with physics simulation. We show that HRL4IN significantly outperforms its baselines in terms of task performance and energy efficiency. More information is available at https://sites.google.com/view/hrl4in.

研究の動機と目的

人間環境における、ベースとアームの協調動作を要する長時間スケールのインタラクティブナビゲーションタスクに直面する課題に対処すること。
異なる状態空間における時間的に拡張された部分的目標を通じた階層的探索を可能にすることで、サンプル効率とタスク成功確率を向上させること。
タスクの各段階で、ロボットのボディマッチング部分（ベース、アーム、または両方）を動的に選択することで、エネルギー効率を最適化すること。
手動による部分的目標設計を一切行わず、エンドツーエンドで部分的目標とボディマッチング選択を学習する深層強化学習手法を構築すること。
シミュレーテッド2Dおよび3D環境において、フラットPPOおよび最先端のHACと比較して優れた性能とエネルギー節約効果を示すこと。

提案手法

高レベル方策は、タスクの現在の段階に応じて、異なる空間（例：ベース位置やエンドエフェクタの姿勢）に部分的目標を選択する。
高レベル方策は、各部分的目標を達成するために使用するボディマッチング部分（ベースのみ、アームのみ、または両方）も選択する。
低レベル方策は、選択されたボディマッチング部分を用いて指定された部分的目標に到達するための行動を実行し、連続制御設定においてPPOを用いて訓練される。
学習を導くために、進行度、成功、衝突回避、エネルギー効率の各項を含むマルチコンponent報酬関数を採用する。
部分的目標は事前に定義されておらず、高レベル方策がエンドツーエンドで学習することで、適応的かつ効率的な探索が可能になる。
オプションを介した時間的抽象化をサポートすることで、エージェントが部分的目標を長時間にわたりコミットできる。

実験結果

リサーチクエスチョン

RQ1異種の状態空間（ナビゲーションと操作を含む）における部分的タスクに分解できる階層的強化学習フレームワークは、インタラクティブナビゲーションタスクの効果的学習に有効であるか？
RQ2タスクの各段階でボディマッチング部分（ベース、アーム、または両方）を動的に選択することで、タスクのパフォーマンスとエネルギー効率が向上するか？
RQ3長時間スケールのインタラクティブナビゲーションタスクにおいて、HRL4INはフラットPPOおよびHACと比較して、成功確率、最終報酬、エネルギー節約の観点で優れた性能を示すか？
RQ4報酬関数の各構成要素（進行度、衝突、成功、エネルギー）が、方策学習およびパフォーマンスに与える寄与度は何か？
RQ5手動による部分的目標の指定なしに、高レベル方策は意味のある部分的目標とボディマッチング選択戦略を学習できるか？

主な発見

HRL4INは、インタラクティブGibson環境において、成功確率0.963および平均最終報酬64.3を達成し、フラットPPOおよびHACを著しく上回った。
アブレーションスタディの結果、エネルギー報酬項を削除した場合、エージェントは意味のあるボディマッチング選択を学習できず、エネルギー節約効果は0.453から0.235に低下した。
衝突回避報酬を欠如させた場合、エージェントの成功確率は0.0に低下し、衝突ペナルティが安全なナビゲーションに不可欠であることが示された。
進行度報酬を欠如させた場合も成功確率は0.0に低下し、長時間スケール探索において進行度の形状づけが極めて重要であることが明らかになった。
ボディマッチング選択器はエネルギー効率の観点で極めて重要であった：無効化するとエネルギー節約効果は0.0に低下したが、成功確率と報酬はほぼ同等を維持した。
可視化により、高レベル方策が大部分の領域でベースのみを使用し、ドア付近ではベース＋アームに切り替え、ドア開錠後に再びベースのみに戻すという、効果的なボディマッチングに配慮した計画を学習していることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。