QUICK REVIEW

[論文レビュー] Learning to Plan in High Dimensions via Neural Exploration-Exploitation Trees

Binghong Chen, Bo Dai|arXiv (Cornell University)|Feb 28, 2019

Robotic Path Planning Algorithms参考文献 52被引用数 27

ひとこと要約

本論文は、事前の経験から一般化可能な計画事前知識を学習するためのアテンションベースのニューラルアーキテクチャを活用する、メタ強化学習フレームワークであるNeural Exploration-Exploitation Trees (NEXT)を提案する。これにより、高次元連続状態空間および行動空間における効率的なオンラインの探索・活用のバランスが可能となり、最先端の計画アルゴリズムよりも顕著に高いサンプル効率と成功確率を達成する。NEXTは、複雑なロボットアームタスクにおいて、計画に要する時間を最大50倍短縮しながらも、高い成功確率を維持する。

ABSTRACT

We propose a meta path planning algorithm named \emph{Neural Exploration-Exploitation Trees~(NEXT)} for learning from prior experience for solving new path planning problems in high dimensional continuous state and action spaces. Compared to more classical sampling-based methods like RRT, our approach achieves much better sample efficiency in high-dimensions and can benefit from prior experience of planning in similar environments. More specifically, NEXT exploits a novel neural architecture which can learn promising search directions from problem structures. The learned prior is then integrated into a UCB-type algorithm to achieve an online balance between \emph{exploration} and \emph{exploitation} when solving a new problem. We conduct thorough experiments to show that NEXT accomplishes new planning problems with more compact search trees and significantly outperforms state-of-the-art methods on several benchmarks.

研究の動機と目的

高次元連続経路計画におけるサンプル非効率性の課題に取り組むこと。特に、次元の呪いのため、古典的手法（例：RRT）が機能しなくなる状況を想定する。
過去の経験から共通する構造的特徴を抽出することで、類似した計画問題間でのメタラーニングを可能とし、新しい問題に対する一般化能力とサンプル効率を向上させること。
高次元連続状態空間を、エンドツーエンドの学習が可能な低次元離散表現に埋め込むことができるニューラルアーキテクチャを設計すること。
学習済み事前知識をUCB型アルゴリズムに統合し、計画中にオンラインかつ適応的に探索と活用のバランスを取ること。
ロボットアームの操作を含む、複雑で高次元な環境を対象としたベンチマークにおいて、既存の学習ベースおよび古典的計画アルゴリズムを上回ること。

提案手法

NEXTは、高次元連続状態空間および行動空間を、類似した計画問題間の構造的パターンを捉える低次元離散表現に変換するアテンションベースのニューラルネットワークを採用する。
ネットワークはエンドツーエンドで訓練され、ベルマン再帰構造を反映する価値関数および方策を予測する。これにより、タスク間での一般化が可能となる。
UCB型の拡張演算子が、学習済みニューラル事前知識を統合し、サンプリングをガイドすることで、新規領域の探索と有望な方向の活用の動的バランスを実現する。
計画器は木構造探索を採用し、ノードは学習済み価値推定と不確実性の両方を組み合わせた信頼度ボーナスに基づいて拡張される。
本手法はオンライン適応をサポートする。事前の経験が保持され、再訓練なしに新しい問題に再利用可能であり、継続的な改善が可能となる。
アーキテクチャは、シミュレーションおよび実世界のロボットアーム制御タスクで評価され、RRT*、BIT*、CVAE-plan、Reinforce-planと比較された。

実験結果

リサーチクエスチョン

RQ1ニューラルアーキテクチャは、高次元連続空間における事前の経験から、一般化可能で問題構造に依存する計画事前知識を学習できるか？
RQ2学習済みニューラル事前知識によってガイドされる新しい計画タスクにおいて、オンラインUCB型アルゴリズムが探索と活用のバランスを効果的にとれるか？
RQ3NEXTは、高次元経路計画において、最先端のサンプリングベースおよび学習ベースの計画アルゴリズムと比較して、顕著に高いサンプル効率と成功確率を達成できるか？
RQ4アテンションベースのニューラルアーキテクチャは、物体配置が異なるロボットアームの操作など、多様だが構造的に類似した計画問題に対して、どれほど一般化できるか？
RQ5BIT*のようなエキスパートチューニング済みベースラインと比較して、NEXTは経路品質を維持または向上させながら、計画時間をどれほど短縮できるか？

主な発見

NEXTは、1秒間で1000件のテスト問題セットに対して95％の成功確率を達成し、BIT*が50秒間で達成する成功確率を同等に達成した。これにより、計画に要する時間が最大50倍短縮された。
2Dおよび3Dグリッドワールドタスクにおいて、NEXTはRRT*およびBIT*と比較して、平均経路コストを最大40％、木のノード数を最大60％削減した。
アブレーションスタディの結果、アテンションベースのニューラルアーキテクチャを改善版GPPNに置き換えると、顕著に性能が低下した。これは、高次元設定において、提案されたアーキテクチャの優位性を確認するものである。
学習済み方策をダイクストラのヒューリスティックに置き換えても、2Dを除くすべてのケースでNEXTがヒューリスティックを上回った。これは、高次元において、手作業で設計されたヒューリスティックよりも学習による一般化の価値が顕著であることを示している。
NEXTのUCBベースの拡張メカニズムは、一様またはヒューリスティックサンプリングと比較して、より優れた探索・活用のトレードオフを達成した。これは、低い経路コストと高速な収束性によって裏付けられた。
実世界のロボットアーム制御タスクにおいて、NEXTは衝突のない経路を生成し、高い成功確率を達成した。可視化結果から、複雑でごみだらけの環境でも、最小限のサンプリングで効果的にナビゲートできる能力が確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。