QUICK REVIEW

[論文レビュー] Towards Cognitive Exploration through Deep Reinforcement Learning for Mobile Robots

Lei Tai, Ming Liu|arXiv (Cornell University)|Oct 6, 2016

Reinforcement Learning in Robotics参考文献 20被引用数 78

ひとこと要約

本稿では、RGB-Dセンサーからの生の深度画像のみを用いて、未知の屋内環境を自律的に探索できるエンドツーエンドの深層強化学習（DRL）フレームワークを提案する。事前に学習された教師ありモデルで畳み込みニューラルネットワーク（CNN）を初期化し、DRLによるファインチューニングを行うことで、移動命令の最適推定と歩行可能領域の認識を同時に向上させ、手動ラベリングを一切行わず、シミュレーションおよび実環境の両方で頑健な探索を達成する。

ABSTRACT

Exploration in an unknown environment is the core functionality for mobile robots. Learning-based exploration methods, including convolutional neural networks, provide excellent strategies without human-designed logic for the feature extraction. But the conventional supervised learning algorithms cost lots of efforts on the labeling work of datasets inevitably. Scenes not included in the training set are mostly unrecognized either. We propose a deep reinforcement learning method for the exploration of mobile robots in an indoor environment with the depth information from an RGB-D sensor only. Based on the Deep Q-Network framework, the raw depth image is taken as the only input to estimate the Q values corresponding to all moving commands. The training of the network weights is end-to-end. In arbitrarily constructed simulation environments, we show that the robot can be quickly adapted to unfamiliar scenes without any man-made labeling. Besides, through analysis of receptive fields of feature representations, deep reinforcement learning motivates the convolutional networks to estimate the traversability of the scenes. The test results are compared with the exploration strategies separately based on deep learning or reinforcement learning. Even trained only in the simulated environment, experimental results in real-world environment demonstrate that the cognitive ability of robot controller is dramatically improved compared with the supervised method. We believe it is the first time that raw sensor information is used to build cognitive exploration strategy for mobile robots through end-to-end deep reinforcement learning.

研究の動機と目的

未知の屋内環境における移動ロボットの認知的探索戦略の開発（深度センサー入力のみを想定）。
ロボット工学における教師あり学習の限界（特にデータラベリングの負担と未学習シーンへの一般化性能の低さ）を克服すること。
生の深度画像を制御命令に直接マッピングするエンドツーエンドの深層強化学習ポリシーの訓練を可能にすること。
受容 field 分析を通じてモデルの認知的能力を評価し、歩行可能領域の認識がどのように向上したかを示すこと。
シミュレーションおよび実環境の両方で手法を検証し、シミュレーションから現実への転送性を示すこと。

提案手法

本手法は、生の深度画像を入力とし、5つの移動命令（前進、左、右、左回転、右回転）のQ値を出力するDeep Q-Network（DQN）フレームワークを採用する。
畳み込みニューラルネットワーク（CNN）の重みは、先行研究の事前学習済み教師ありモデルを用いて初期化され、収束を早めるとともに、より優れた初期特徴表現が得られる。
報酬関数を用いて、領域カバレッジを促進し、衝突を罰するように、エンドツーエンドのDRLによりネットワークを訓練する。
受容 field の可視化は、特徴マップの双線形補間を用いて実施され、入力深度画像のどの領域がポリシー意思決定に影響を与えているかを解釈する。
訓練はシミュレーション環境に限定され、実環境データは訓練中に一切使用されないため、実シーンへのゼロショット一般化をテストする。
行動価値推定を用いて、モデルの移動意思決定に対する自信を評価し、低い値は衝突リスクの高い状況を示す。

実験結果

リサーチクエスチョン

RQ1教師あり学習の特徴量設計やラベル付けなしに、生の深度画像から直接深層強化学習エージェントが効果的な探索ポリシーを学習できるか？
RQ2エンドツーエンドのDRLは、教師あり学習手法と比較して、ロボットの歩行可能経路の認識能力をどの程度向上させるか？
RQ3シミュレーションで学習したDRLポリシーが、微調整なしに実環境の屋内環境へどの程度一般化できるか？
RQ4受容 field 分析から、深層ネットワークが探索中にどのように認知的推論を行っているかの洞察が得られるか？
RQ5DRLポリシーは、学習環境に存在しなかった新しい形状や不規則な障害物に対しても、より頑健に動作するか？

主な発見

DRLモデルは、シミュレーションおよび実環境の両方で未知の屋内環境を効果的に探索し、実環境データを一切使用しないにもかかわらず、教師あり学習ベースラインよりも優れた性能を達成した。
シミュレーションでのみ学習したにもかかわらず、DRLモデルは狭い通路や不規則な障害物を含む実環境のシーンに対しても効果的に一般化し、強いゼロショット転送能力を示した。
受容 field 分析から、DRLモデルが、到達可能な最も遠い領域の深度と、通路の幅の両方に注目していることが明らかになった。これは、歩行可能領域の認知的認識が向上していることを示している。
対照的に、教師あり学習モデルは常に深度画像の最も遠い点に注目しており、複数の障害物がある複雑なシーンでは衝突を起こした。
DRLモデルは、R3やR4のような狭い通路を正しく特定・回避したが、教師あり学習モデルは深度にのみ注目しているため、このような状況で失敗した。
行動価値推定値は衝突リスクと相関していた：近距離に障害物がある状況では、すべての行動に対して低いQ値が得られ、モデルの内部的危険評価が物理的現実と一致していた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。