QUICK REVIEW

[論文レビュー] Towards Monocular Vision based Obstacle Avoidance through Deep Reinforcement Learning

Linhai Xie, Sen Wang|arXiv (Cornell University)|Jun 29, 2017

Robotic Path Planning Algorithms参考文献 24被引用数 136

ひとこと要約

論文は、深層ダブルQネットワーク(D3QN)を用いた対戦型アーキテクチャを用いたモノクル視覚障害物回避を提案し、シミュレーションで学習可能であり、ノイズのある深度予測にもかかわらず実ロボットへの移行が可能である。

ABSTRACT

Obstacle avoidance is a fundamental requirement for autonomous robots which operate in, and interact with, the real world. When perception is limited to monocular vision avoiding collision becomes significantly more challenging due to the lack of 3D information. Conventional path planners for obstacle avoidance require tuning a number of parameters and do not have the ability to directly benefit from large datasets and continuous use. In this paper, a dueling architecture based deep double-Q network (D3QN) is proposed for obstacle avoidance, using only monocular RGB vision. Based on the dueling and double-Q mechanisms, D3QN can efficiently learn how to avoid obstacles in a simulator even with very noisy depth information predicted from RGB image. Extensive experiments show that D3QN enables twofold acceleration on learning compared with a normal deep Q network and the models trained solely in virtual environments can be directly transferred to real robots, generalizing well to various new environments with previously unseen dynamic objects.

研究の動機と目的

モノクルRGB視覚のみを用いたロボットの障害物回避を扱う。
シミュレートデータを活用し、現実世界へ転送可能な学習手法を開発する。
デュアル究極ネットワークとダブルQネットワークアーキテクチャによる学習効率と頑健性の向上。

提案手法

RGB画像から深度を予測する2段階のネットワークを用い、その後D3QNで行動を出力する。
デュアルネットワークを採用し、状態価値と行動利得を別々に推定する。
トレーニングを安定化させ、過大評価を抑制するためにダブルQ学習フレームワークを組み込む。
Gazeboで2つの環境(シンプルと複雑)を用いて訓練し、深度予測にノイズ/ブラーを適用してシミュレート現実転移を強化する。
行動を独立した線形・角速度に離散化し、報酬r = v * cos(omega) * delta_tと衝突ペナルティを定義する。

実験結果

リサーチクエスチョン

RQ1モノクルRGB入力を深層強化学習を介して障害物回避に有効に活用できるか。
RQ2この領域でD3QNアーキテクチャはDQNおよびDDQNと比較して学習速度と性能を改善するか。
RQ3ノイズのある深度予測下でシミュレーションで訓練されたポリシは実ロボットへどの程度転移できるか。
RQ4未知の実世界環境や動的障害物に対して学習ポリシはどの程度頑健か。

主な発見

D3QNは障害物回避タスクで標準のDQNより約2倍速い学習を達成する。
デュアル-Q機構とダイレクション機構は、ベースラインのDQNおよびDDQNと比較して学習効率とポリシー性能を改善する。
深度予測ノイズを伴うシミュレーションで訓練されたポリシは未見の現実世界シナリオへ一般化する。
実世界のテストでは、静的なRGB画像から多様な室内環境で合理的なアクション予測を示した。
このアプローチはモノクル視覚ベースの障害物回避と直接のシミュレーション→実世界転送を実証し、Turtlebot上で検証された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。