QUICK REVIEW

[논문 리뷰] Towards Monocular Vision based Obstacle Avoidance through Deep Reinforcement Learning

Linhai Xie, Sen Wang|arXiv (Cornell University)|2017. 06. 29.

Robotic Path Planning Algorithms참고 문헌 24인용 수 136

한 줄 요약

이 논문은 노이즈가 있는 깊이 예측에도 불구하고 시뮬레이션에서 학습되고 실제 로봇으로 전달 가능한 단안 시각 장애물 회피를 위한 이중 큐 네트워크(D3QN) 기반의 듀얼링 아키텍처를 제안한다.

ABSTRACT

Obstacle avoidance is a fundamental requirement for autonomous robots which operate in, and interact with, the real world. When perception is limited to monocular vision avoiding collision becomes significantly more challenging due to the lack of 3D information. Conventional path planners for obstacle avoidance require tuning a number of parameters and do not have the ability to directly benefit from large datasets and continuous use. In this paper, a dueling architecture based deep double-Q network (D3QN) is proposed for obstacle avoidance, using only monocular RGB vision. Based on the dueling and double-Q mechanisms, D3QN can efficiently learn how to avoid obstacles in a simulator even with very noisy depth information predicted from RGB image. Extensive experiments show that D3QN enables twofold acceleration on learning compared with a normal deep Q network and the models trained solely in virtual environments can be directly transferred to real robots, generalizing well to various new environments with previously unseen dynamic objects.

연구 동기 및 목표

단안 RGB 영상만을 이용한 로봇의 장애물 회피를 다룬다.
시뮬레이션 데이터를 활용하고 실제 세계로 옮겨갈 수 있는 학습 기반 방법을 개발한다.
듀얼링 및 더블 Q-네트워크 아키텍처를 통해 학습 효율성과 강인성을 향상시킨다.

제안 방법

RGB 이미지로부터 깊이를 예측하는 두 단계 네트워크를 사용하고, 이후 D3QN을 적용하여 행동을 출력한다.
상태 가치와 행동 이점을 각각 추정하기 위해 듀얼링 네트워크를 도입한다.
학습 안정성과 과대추정 감소를 위해 더블 Q-러닝 프레임워크를 도입한다.
Gazebo에서 두 환경(간단한 환경과 복잡한 환경)으로 학습하고 깊이의 무작위 노이즈/블러를 적용하여 시뮬레이션-실제(Sim-to-Real) 전이 향상.
동작을 독립적인 선형 속도와 각속도로 이산화하고 보상으로 r = v * cos(omega) * delta_t를 정의하며 충돌 페널티를 포함한다.

실험 결과

연구 질문

RQ1단안 RGB 입력이 깊은 강화학습을 통해 효과적으로 장애물 회피에 사용될 수 있는가?
RQ2이 도메인에서 D3QN 아키텍처가 DQN 및 DDQN에 비해 학습 속도와 성능을 향상시키는가?
RQ3깊이가 노이즈가 있는 예측 하에서 시뮬레이션에서 학습된 정책이 실제 로봇으로 얼마나 잘 전달되는가?
RQ4학습된 정책이 본 적 없는 실제 환경과 동적 장애물에 대해 얼마나 강인한가?

주요 결과

D3QN은 장애물 회피 과제에서 표준 DQN보다 약 두 배 빠른 학습 속도를 달성한다.
듀얼링 및 더블-Q 메커니즘이 기준 DQN 및 DDQN 대비 학습 효율성과 정책 성능을 향상시킨다.
깊이 예측 노이즈가 있는 시뮬레이션에서 학습된 정책이 실제 세계 상황과 보이지 않는 동적 물체에 일반화된다.
다양한 실내 환경에서 정적 RGB 이미지로부터 합리적인 행동 예측을 보인다.
이 방법은 단안 시각 기반 장애물 회피를 직접 시뮬레이션-실제 간 이전으로 가능하게 하며, Turtlebot에서 검증되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.